Psychologie, statistique et psychométrie: Variables, valeurs et modalités

5. Quantification de la variabilité

5.3. Variables, valeurs et modalités

3.1. Définitions

Considérons la définition suivante :

Une variable est une propriété d'un objet ou événement qui peut prendre différentes valeurs. Ainsi la couleur des cheveux est une variable parce qu'il s'agit de la propriété d'un objet (les cheveux) et qu'elle peut prendre différentes valeurs (cheveux bruns, blonds, roux, gris, etc.)
David C. Howell (2008, p. 4)

On voit qu'ainsi définie, la notion de variable est une notion extrêmement générale, qui nous permettra de décrire des objets sous l'angle des valeurs que peuvent prendre les propriétés de ces objets. Lorsque ces valeurs correspondent à des éléments discrets (c'est-à-dire suffisamment séparés pour qu'on puisse les compter), on appelle chacune de ces valeurs modalités. Dans l'exemple précédent de Howell, bruns, blonds, roux, etc. sont autant de modalités de la variable couleur des cheveux. Lorsque la variable peut prendre une infinité de valeurs sur un intervalle (mathématiquement parlant, lorsque l'intervalle est « continu »), par exemple lorsque l'on mesure la taille ou le poids d'un individu, on ne parle généralement plus de modalités mais de valeurs.

La notion de variable correspond à des propriétés communes à toute une classe d'objets. Par exemple si on s'intéresse à la classe des humains, on pourra assigner une modalité à la variable « couleur des cheveux » pour tout individu. Cette variable pourra changer de modalité en passant d'un individu à l'autre, même si elle est constante pour un même individu. A l'inverse, certaines variables peuvent changer de modalité chez un même individu observé à des moments différents. Par exemple, la variable « couleur des cheveux » peut changer si un individu se fait teindre les cheveux.

Attention : il ne faut pas confondre la notion de variable telle que nous venons de la définir, avec la notion de variable aléatoire, beaucoup plus spécifique et sur laquelle nous reviendrons.

3.2. Les types de variables

Suivant le type de modalités ou d'échelles de mesure utilisée pour coder une variable, celle-ci possédera différentes propriétés. On distingue trois types de variables, correspondant à trois types d'échelles de mesures.

Les variables nominales. Ce sont des variables qui servent à coder des caractéristiques bien séparées (discrètes) de sorte que les différents individus peuvent être regroupés en catégories mutuellement exclusives selon la modalité que prend pour eux cette variable. Par exemple, si la caractéristique est « couleur des cheveux », et que l'on code cette couleur avec les modalités vues plus haut dans la définition de Howell (cheveux bruns, blonds, roux, ...) on voit facilement qu'il est possible de constituer des classes d'individus (les bruns, les roux, les blonds, ...) et qu'un individu donné ne sera affecté qu'à une seule classe à l'exclusion des autres. Un cas particulier de variable nominale est particulièrement intéressant : les variables dichotomiques. Il s'agit de variables ne possédant que deux modalités. Par exemple, la variable Sexe chez les humains ne peut prendre que les modalités Masculin ou Féminin. On peut donc très facilement les recoder en 0 et 1, ce qui autorise certains traitements de type numérique bien que la variable soit fondamentalement nominale.

Enfin, il faut noter qu'on emploie parfois l'expression échelle nominale pour désigner l'ensemble des valeurs possibles d'une variable nominale, mais il faut être conscient qu'il s'agit là d'un abus de langage, car les différentes modalités d'une variable nominale sont seulement juxtaposées et ne constituent en aucun cas une entité orientée, ordonnée comme peut l'être une échelle.
Les échelles nominales posent un problème immédiat : elles ne possèdent presque aucune des propriétés des nombres. Or, ce que nous cherchons dans cet article, c'est d'exposer une démarche de quantification de la réalité. Ce problème se résout par le fait qu'on introduit la notion de fréquence. Autrement dit, puisque nous disposons de catégories discrètes et d'individus qui se répartissent dans les différentes catégories de la variable, il est possible, tout simplement, de compter le nombre d'individus dans chaque catégorie. En divisant le nombre d'éléments d'une catégorie par le nombre total d'individus, nous obtenons la fréquence de la catégorie. Nous pourrons dès lors appliquer les propriétés mathématiques des fréquences pour procéder aux analyses quantitatives sur les variables d'intérêt pour la recherche.
Les variables ordinales. Ce sont des variables dont les modalités peuvent être des intervalles ou des nombres, mais dont seule la propriété d'ordre (d'où le terme « ordinal ») est prise en compte. Considérons par exemple les classes d'âge suivantes : moins de 20 ans, de 20 à 39 ans, de 40 à 59 ans, de 60 à 80 ans, plus de 80 ans. Ces catégories pourraient tout à fait tomber dans le cadre de la définition des variables nominales vues précédemment puisqu’un individu donné appartient sans ambiguïté à une et une seule de ces catégories. Toutefois, contrairement au cas des variables nominales, ces catégories sont ordonnées, au sens où il existe une relation comparative entre elles. Tout individu appartenant à la classe des 20-39 ans est plus vieux que tout individu de la classe des moins de 20 ans. Autre exemple : On peut mettre des notes ordinales aux devoirs d'élèves, A+, A-, B+, B-, etc. On dit qu’il existe une relation d’ordre entre les modalités de la variable. Les variables ordinales peuvent avoir des nombres ordinaux comme modalités. Par exemple, si l’on met 1 au premier de la classe (celui qui a la meilleure moyenne), 2 au deuxième, 3 au troisième, et... On voit que les nombres ainsi obtenus traduisent un classement, un ordre. Par contre, on voit bien aussi que ces nombres ne respectent pas une propriété cruciale, dite « égalité des intervalles ». Derrière cette expression compliquée se cache l'idée que les intervalles (on peut toujours imaginer l'intervalle entre 2 et 3) n’ont pas la même signification. Ainsi, rien ne permet d’affirmer que la différence qui existe entre le 1^er et le deuxième de la classe est la même que celle qui existe entre le deuxième et le troisième. Il y a peut-être un gouffre entre le deuxième et le troisième alors que la place de 1^er s’est jouée à un petit rien sans importance. Une autre différence tient à ce que les variables ordinales peuvent être continues et non pas discrètes. Par exemple, si l'on mesure la compétence d’après le temps passé à traiter un problème complexe. La variable peut être considérée comme continue [1] , mais cela n’aurait pas de sens de dire qu’un individu est deux fois plus compétent qu’un autre s’il a mis deux fois moins de temps. On ne peut donc retenir que la propriété d’ordre : de deux participants, le plus rapide sera juste considéré comme plus compétent.

Notons que, contrairement aux modalités des soi-disant « échelles nominales », les modalités d'une variable ordinale sont bel et bien orientées et l'on est donc tout à fait fondés à parler d'échelle ordinale.
Les variables numériques. Supposons maintenant que l'on mesure la taille d'un individu. Cette fois, l'échelle de mesure est bien un nombre, mais ce nombre possède la propriété d'égalité des intervalles. Cela signifie tout simplement que la différence de taille entre 0,50m et 1m est la même qu'entre 1m et 1,5m. Cette propriété n'était pas respectée avec les échelles ordinales. Ue variable qui satisfait cette propriété est aussi appelée variable d'intervalles (on parlera de variable mesurée sur une échelle d'intervalles). Il existe un dernier raffinement, lorsque les valeurs ont toutes les propriétés des variables numériques d'intervalle, plus une nouvelle propriété, à savoir qu'il existe en plus un vrai zéro de la mesure. Un vrai zéro (ou « zéro absolu » comme disent les physiciens) est la valeur où la grandeur mesurée est effectivement nulle. On parle alors de variables de rapport et d'échelles de rapport. En effet, le zéro constitue alors un point de référence commun à tous les rapports qui, du coup, prennent sens les uns par rapport aux autres. On peut dire que quelqu'un de deux mètres est deux fois plus grand que quelqu'un de 1m, que quelqu'un de 1,80 m est deux fois plus grand que quelqu'un de 90 cm, et dans les deux cas, « deux fois plus grand » signifie la même chose. Mais tant que les physiciens n'avaient pas trouvé le zéro absolu des températures, ils ne pouvaient comparer les rapports de températures mesurées par Celsius, par exemple, avec les rapports de températures mesurés en Fahrenheit. Pou prendre un exemple en psychologie, avec une échelle d'intelligence, le zéro serait l'absence totale d'intelligence. Mais quelle signification une telle idée peut-elle avoir. C'est, à ce jour, indéfini. Dans ces conditions, il est impossible de dire que l'intelligence est notée sur une échelle de rapport. En l'absence d'un zéro absolu, les rapports entre les nombres ne sont pas comparables. Autrement dit, affirmer que quelqu'un est deux fois plus intelligent que quelqu'un d'autre n'a aucun sens. Tout au plus peut-on dire que l'un est plus intelligent que l'autre, ou, sous une forme plus générale, dire que dans une population de 1000 personnes, telle personne se classerait probablement dans les 10 plus intelligents.