Statistique inférentielle et psychométrie appliquée

Cette grande leçon introduit la statistique inférentielle et la psychométrie appliquée, ceci dans la  perspective de permettre aux étudiants de comprendre les enjeux épistémologiques, scientifiques et techniques de ces matières. Ces enjeux comprennent en particulier la mise au point de méthodes objectives pour l’étude de la variabilité induite expérimentalement ou observée en condition naturelle.

Cette leçon est essentielle pour comprendre les suivantes, car tous les concepts de base de la statistique inférentielle y sont expliqués.

8. Population et échantillons

8.2. De l'échantillon à la population

2.1. Notion d'individu statistique

Notre scientifique va observer des exemplaires de son objet d'étude, exemplaires sur chacun desquels il prendra des mesures.

Nous appellerons Individu statistique chaque exemplaire de son objet d'étude. Pour un psychologue par exemple, un individu statistique peut correspondre à un individu humain.  Ou encore à un couple, s'il étudie des couples. Ou s'il travaille en sciences de l'éducation, il peut très bien prendre une classe entière comme individu statistique. De l'autre côté du spectre, il peut même s'intéresser à un comportement particulier, le comportement d'appui sur un bouton, et prendre chaque exemplaire de ce comportement comme un seul individu statistique.


2.2. Échantillons d'individus et échantillons de mesures

Dans un premier sens du mot, on qualifiera l'ensemble des individus statistiques mesurés comme étant son échantillon .

Par opposition, on appellera population la totalité des individus qu'il aurait été possible d'observer dans l'absolu.

Admettons pour simplifier que notre chercheur ait pris une mesure par individu statistique. Il dispose donc d'un échantillon de mesures , ce qui constitue un deuxième sens du mot.

Il faut prendre garde à la distinction entre les deux : à partir d'un seul individu de l'échantillon d'individus, notre chercheur peut très bien prendre tout un échantillon de 100 mesures ! Ainsi, dans une approche de type avant-après (par exemple, on mesure chaque individu avant, puis après, l'application d'une thérapie), on disposera d'un échantillon d'individus, mais de deux échantillons de mesures, celles prises avant et celles prises après.


2.3. Décrire l'échantillon, mais inférer la population

Munis de ces définitions, reprenons notre problème initial. Nous l'avons vu en introduction, la partie de la réalité observée n'est généralement qu'une toute petite partie de la réalité totale. Le problème du chercheur est de quantifier le risque qu'il prend en supposant que les conclusions tirées à partir de l'échantillon s'appliquent à toute la population.

Il n'existe aucune expérience de psychologie ou de biologie qui prenne comme échantillon la totalité des humains. C'est tout simplement infaisable. L'échantillon est donc toujours différent de la population, c'est un sous-ensemble de la population.

Dans le cours sur la statistique descriptive, nous avons vu un ensemble de calculs qu'il était possible de faire pour décrire la réalité de nos échantillons. On peut par exemple calculer des indices de tendance centrale (moyenne, médiane) ou au moins de dominance (mode). On peut aussi produire des statistiques  de dispersion (variance, écart-type, erreur standard, écart interquartile, ...). Etc. Mais absolument toujours, ce sont des valeurs calculées à partir de l'échantillon. Et donc toujours se pose la question du pari calculé ! Quel risque est-ce que je prends si je considère que ma statistique descriptive s'applique au-delà de mon échantillon ?

On dira donc que l'échantillon est décrit mais que la population n'est qu'inférée, imaginée à partir de l'échantillon.  Et c'est pourquoi l'on parlera de statistique inférentielle dès lors qu'on veut généraliser nos résultats à la population entière.