Psychologie, statistique et psychométrie

Cette première grande leçon introduit la psychométrie et la statistique dans la perspective historique du développement de la psychologie scientifique à partir du XIX e siècle, afin de permettre aux étudiants de comprendre les enjeux épistémologiques, scientifiques, et techniques de ces matières. Ces enjeux comprennent en particulier l'établissement de grandeurs mesurables et la mise au point de méthodes objectives pour l'étude de la variabilité induite expérimentalement ou observée en condition naturelle.

Rédaction : Éric Raufaste, Stéphane Vautier

6. Variabilité et distributions

6.1. Notion de distribution

Pourquoi caractériser une population ? Un exemple concret.

Imaginons que des fabricants de vêtements souhaitent mesurer la taille moyenne des français, afin de savoir de quelles tailles ils doivent fabriquer leurs vêtements. Une procédure évidente, à condition de disposer de moyens quasi illimités, consisterait à mesurer chacun des individus qui composent la population française, soit plus de soixante millions de mesures. Admettons pour l'instant que le coût de ces mesures ne soit pas un problème et tournons-nous plutôt vers l'utilisation que les industriels pourraient faire de l'information recueillie.

La première remarque, c'est qu'au sein d'une population d'apparence homogène peuvent se cacher des populations différentes. Ainsi, du point de vue de la taille, la population française n'est pas homogène. Il suffit de considérer la question du sexe pour qu'il soit évident que les proportions des hommes et des femmes adultes ne sont pas identiques. Ainsi, du point de vue de la taille, la population française est composée du regroupement de deux populations différentes : les hommes et les femmes. En fait, on sait aussi que, toujours du point de vue de la taille, les proportions des enfants (la taille de la tête par rapport au reste du corps, par exemple) ne sont pas les mêmes que les proportions des adultes. Pour la simplicité de l'exposé, imaginons que nos industriels ne souhaitent habiller que la population des hommes adultes.

S'ils veulent rentabiliser leurs usines, ces industriels devraient pouvoir fabriquer une quantité de vêtements de grandes tailles proportionelle à la part de grandes personnes en France. Même chose pour les petites tailles et les moyennes tailles. On voit bien qu'il ne servirait pas à grand-chose de seulement produire des vêtements d'une taille adaptée au français moyen !

La question qui se pose ensuite à nos fabricants est de déterminer combien de sortes de tailles de vêtements différents, il va falloir fabriquer. Si un vêtement est taillé pour des individus petits (Taille S), tous les individus entrant dans cette classe doivent pouvoir porter le vêtement. Mais il est clair qu'un individu de grande taille (taille XXL) ne pourrait pas porter ce même vêtement, car il ne pourrait pas rentrer dedans sans le craquer, ou bien il serait mal dedans et aurait l'air ridicule. Par ailleurs, les procédés industriels sont tels qu'on peut réduire les coûts si on fabrique un nombre petit de modèles différents. On ne peut donc pas non plus fabriquer des vêtements pour chaque taille exacte. Les fabricants vont donc définir le plus petit nombre possible de classes d'équivalence pour décrire la population. Par classes d'équivalence, il faut entendre ici des intervalles de tailles de sujets tels que tous les individus mesurant entre la limite basse et la limite haute pourront physiquement porter les mêmes vêtements.

Une fois ces classes définies, nos fabricants doivent répondre à deux nouvelles questions :

  • Combien de vêtements de chaque classe peuvent-ils vendre ? Et donc combien il y a d'individus dans chaque classe ?
  • Quelle taille devront avoir les vêtements de chaque classe ?

La première question est celle de l'effectif. Autrement dit, combien d'individus tombent dans cette classe. Connaître l'effectif de l'échantillon est aisé : il suffit de compter. Dans certains cas, on préférera utiliser la notion de fréquence, sur laquelle nous reviendrons.

La deuxième question est plus délicate, car même en connaissant exactement la taille de chaque individu de la population, il existe plusieurs réponses. On peut par exemple choisir la taille la plus grande dans cet intervalle, en se disant que comme cela on est sûr que tout le monde rentrera dedans... On peut aussi choisir la taille moyenne des individus de cette classe, l'idée étant de minimiser l'écart de taille qu'aura à subir chaque consommateur (entre sa taille réelle et la taille du vêtement), et donc augmenter les chances que des acheteurs potentiels trouvent que le vêtement leur va.


Définition de distribution

Toutes les questions précédentes ont un point commun : y répondre suppose d'avoir une idée de la répartition des individus de la population sur la caractéristique considérée. C'est précisément la notion de distribution .

Définition : Nous appellerons distribution d'une population sur une caractéristique la répartition des individus de la population sur les différentes modalités ou valeurs de la caractéristique. 

Nous pouvons d'ores et déjà noter que les distributions ont été étudiées sous l'angle des fonctions mathématiques qui permettent d'en donner un modèle.  L'exemple le plus connu est la fameuse courbe en cloche, qui traduit la répartition que prennent les mesures autour d'une valeur moyenne lorsque seul le hasard (l'imprécision de la mesure) explique la dispersion des notes autour de la moyenne. Cette courbe a différentes propriétés mathématiques sur lesquelles nous reviendrons. Par exemple, elle est symétrique autour de la moyenne, on rencontre le plus d'observations près de la moyenne et plus on s'éloigne de la moyenne, moins on trouve d'observations, etc. Le belge Adolphe Quetelet en particulier s'est illustré pour avoir mis en évidence cette distribution sur des données humaines.

Ainsi, on a d'un côté les distributions empiriques observées (la répartition des tailles chez les individus d'un échantillon représentatif) ou non (la répartition des tailles dans l'ensemble de tous les français) et les distributions mathématiques (par exemple la distribution induite par l'imprécision de la mesure).