Entrer dans la démarche analytique RH : les données, les données, les données !!
Dans la démarche analytique RH, les données sont la matière première. A ce titre, leur qualité est primordiale. On le dit souvent mais l’exemple suivant l’illustre cruellement…
On le doit à un statisticien, et il porte le nom de son auteur : le quartet d’Anscombe (1978).
Celui-ci imagine 4 séries de données (reproduites ci-dessous). Les observer ne présente qu’un intérêt limité et à moins, tel Néo dans « Matrix », de savoir « lire la matrice », on ne voit guère quelles informations on pourrait en tirer (vous pouvez toutefois essayer…).
![schema_1_pour_larticle_de_sebastien_richard_sur_la_demarche_analytique.png schema_1_pour_larticle_de_sebastien_richard_sur_la_demarche_analytique.png](https://www.rhinfo.com/sites/default/files/thumbnails/image/schema_1_pour_larticle_de_sebastien_richard_sur_la_demarche_analytique.png)
Pour tenter de produire de la connaissance, on peut imaginer élaborer quelques statistiques, notamment en établissant une corrélation entre les variables X et Y qui constituent la série.
Toute la force de cet exemple tient au fait que ces statistiques sont exactement identiques pour les 4 séries (tableau ci-dessous). Quelle que soit la série, on devrait donc aboutir à la même conclusion en usant (imprudemment) de la statistique.
![schema_2_pour_larticle_de_sebastien_richard_sur_la_demarche_analytique.png schema_2_pour_larticle_de_sebastien_richard_sur_la_demarche_analytique.png](https://www.rhinfo.com/sites/default/files/thumbnails/image/schema_2_pour_larticle_de_sebastien_richard_sur_la_demarche_analytique.png)
Pourtant les relations unissant X à Y sont très différentes, comme l’illustrent cette fois les 4 graphiques ci-dessous.
![schema_3_pour_larticle_de_sebastien_richard_sur_la_demarche_analytique.png schema_3_pour_larticle_de_sebastien_richard_sur_la_demarche_analytique.png](https://www.rhinfo.com/sites/default/files/thumbnails/image/schema_3_pour_larticle_de_sebastien_richard_sur_la_demarche_analytique_0.png)
-Le 1ergraphique décrit le cas standard que l’on recherche dans une démarche analytique RH : la relation entre X et Y est vraie, mais imparfaite. Les observations sont dispersées autour d’une tendance centrale que l’analyse statistique vient précisément révéler.
-Le 2èmegraphique illustre une erreur classique : le statisticien a spécifié une relation linéaire, alors qu’elle est en réalité parabolique (ou d’une autre nature). L’erreur est dommageable à double égard : la véritable nature de la relation entre X et Y est ignorée et le modèle perd en qualité.
-Le 3èmegraphique décrit une première conséquence de la prise en compte d’observations aberrantes, résultant potentiellement d’une mauvaise qualité des données : une perte de précision importante et une surestimation de la tendance.
-Enfin le 4èmegraphique illustre la situation la plus grave découlant de données de mauvaise qualité : alors qu’aucune relation n’existe réellement entre X et Y, la présence d’un point aberrant vient créer une « relation fantôme » sur laquelle le gestionnaire pourrait être amené à prendre des décisions sans fondements.
Comment éviter alors de tomber dans de tels écueils ?
-La visualisation des données est outil puissant tant en terme de contrôle de leur qualité (on voit tout de suite les 3 problèmes soulignés ici), que de présentation des résultats. Elle s’intègre de fait naturellement comme une étape importante dans la démarche analytique.
-La prudence, l’attention portée au processus de production et de récupération des données sont indispensables. Quelques données aberrantes peuvent conduire à des conclusions totalement erronées : cultivez votre paranoïa !