Statistique descriptive

Cette troisième grande leçon présente l'ensemble des concepts de base nécessaires à la description quantifiée d'observations. Elle constitue le vrai cœur de l'enseignement de la Statistique en L1 et l'étudiant y retrouvera exposés les principaux concepts qu'il aura vus dans ses cours. Toutefois, nous n'aborderons pas ici les aspects analytiques de l'inférence statistique, c'est-à-dire les concepts et méthodes permettant d'évaluer la fiabilité des résultats descriptifs et pour lequel nous renvoyons l'étudiant au cours de L2.

Rédaction : Éric Raufaste

6. Techniques de recodage des données

6.1. Pourquoi recoder des données ?

Les raisons de procéder à un recodage des données sont très diverses.


1.1. Éliminer du bruit inutile

Lorsque l'on agrège les notes obtenues par un individu à plusieurs épreuves (par exemple à des tests psychologiques), l'opération de moyennage va souvent nous donner un résultat avec un certain nombre de décimales, par le seul jeu des opérations mathématiques. Mais, en fait, cette précision n'a strictement aucun sens psychologique. Par exemple, imaginez une épreuve du bac, où l'on teste les performances en mathématique, physique, anglais, etc. Lorsqu'on calcule ensuite la moyenne de l'élève, on peut trouver quelque chose comme 10,24583. Quel sens donner à ces chiffres ? Si l'on prend le 10, on voit à quoi ça correspond : la personne a « la moyenne », et donc on pourra lui donner le bac. Mais que signifie le 0.24583 ? Pas grand-chose pour le 2, encore moins pour le 4 et au-delà, on gagnerait en fait à se passer de cette pseudo-précision qui représente largement plus du bruit que de l'information réelle. D'où l'idée d'arrondir.

Mais arrondir n'est que le premier niveau de l'élimination du bruit. Par exemple, dans de nombreux cas, on peut demander aux sujets de donner une note sur une échelle qui va de 0 à 100, par degrés de 1 :À quel degré aimez-vous les patates bouillies ? 0 « pas du tout », 100 « j'en suis fou »... Même si les sujets donnent une valeur entière, donc qu'il n'est pas possible d'arrondir, en pratique, nous ne distinguons pas tant de degrés dans nos appréciations. Sur nos propres données, nous avons par exemple pu constater que la précision avec laquelle des médecins évaluent le risque d'une maladie dépasse rarement 5% (Raufaste, Da Silva Neves, & Mariné, 2003). 


1.2. Pour pouvoir appliquer certaines techniques de calcul

Dans un certain nombre de cas, on peut souhaiter pratiquer des analyses qui requièrent que les variables prennent des valeurs discrètes. Par exemple, l'analyse de variance utilise habituellement des variables prédictrices ayant un tout petit nombre de modalités. Ou encore, vous voulez comparer les scores sur une variable dépendante (par exemple la performance scolaire) d'individus ayant un QI plus élevé que la moyenne contre ceux ayant un QI plus bas que la moyenne. Le QI étant une variable prenant de très nombreuses valeurs, il sera plus simple alors de recoder le score brut de QI en deux valeurs, par exemple 1 pour ceux qui ont moins que la moyenne et 2 pour ceux qui ont plus que la moyenne.

Dans d'autres cas, la variable de départ a très peu de modalités, mais celles-ci se présentent sous une forme qui n'est pas compatible avec les formats utilisés par le logiciel de statistique que vous voulez utiliser. Par exemple, imaginons que vous ayez les libellés « Homme » et « Femme » pour coder le sexe des individus. Or de nombreux logiciels de statistiques travaillent avec des valeurs numériques, mais lorsqu'il s'agit de variables nominales. En reprenant le codage classique de l'INSEE, on pourra alors par exemple recoder 1 pour les hommes et 2 pour les hommes.

Un autre cas important du besoin de recodage est lié aux pré-requis d'utilisation de certaines techniques. Par exemple, de nombreuses techniques statistiques supposent que les données soient normalement distribuées. Or dans souvent les données ne le sont pas. On peut donc appliquer diverses transformations pour donner une forme normale à la distribution.


1.3. Pour pouvoir comparer des données entre elles

De plus en plus, en psychologie cognitive, on utilise des appareils permettant d'enregistrer les mouvements oculaires pour savoir, en temps réel, ce que les sujets sont en train de regarder. Des informations précieuses sont apportées par les diamètres pupillaires qui, à éclairage constant, traduisent des variations émotionnelles ou des variations d'effort dont les sujets ne sont même pas conscients. Le problème est qu'on ne peut pas directement comparer les diamètres pupillaires d'un individu à l'autre puisque au départ les différents individus n'ont pas les yeux de la même taille. Comment faire ? Une solution consiste alors à appliquer une opération appelée centration-réduction, qui a pour effet, avant même de commencer les calculs de comparaison, de ramener les mesures prises sur les différents sujets à quelque chose qui soit indépendant de la taille de leur œil.

Nous allons maintenant passer maintenant à la page suivante pour voir de plus près quelques techniques de recodage.