Statistique inférentielle et psychométrie appliquée

Cette grande leçon introduit la statistique inférentielle et la psychométrie appliquée, ceci dans la  perspective de permettre aux étudiants de comprendre les enjeux épistémologiques, scientifiques et techniques de ces matières. Ces enjeux comprennent en particulier la mise au point de méthodes objectives pour l’étude de la variabilité induite expérimentalement ou observée en condition naturelle.

Cette leçon est essentielle pour comprendre les suivantes, car tous les concepts de base de la statistique inférentielle y sont expliqués.

10. Évaluer la valeur p

10.2. La démarche générale du test d'hypothèse

Nous invitons les lecteurs aux articles de L1 sur les représentations des distributions pour réactiver leurs connaissances sur le sujet.

A. La notion de distribution observée.

Dans l'immédiat, nous nous contenterons de rappeler qu'une distribution observée correspond grosso modo à la proportion d'observations qui tombent dans chacun des intervalles de valeurs possibles. Par exemple, si j'imagine un test d'aptitude intellectuelle comprenant 50 exercices, et que je compte un point par exercice réussi, chaque sujet obtient un score compris entre 0 et 50. Si je regroupe les valeurs possibles par intervalles de 5, cela me donne par exemple les intervalles 0-5; 6-10; 11-15 ; ... ;  46-50.

 En pratique, on va par exemple constater que les individus dont le score tombe dans l'intervalle 0-5 ou 46-50 sont proportionnellement très rares. Au contraire, les scores qui tombent les intervalles 20-25 et 26-30 sont de loin les plus fréquents, représentant à eux seuls par exemple 50% des observations.

Nous avons donc là une distribution observée.

B. La notion de distribution théorique.

Supposons, que l'on sache que dans une situation donnée, un effet quelconque résulte de l'accumulation d'un grand nombre de petits effets aléatoires. Par exemple, si l'on prend la capacité générale à résoudre des problèmes logico-mathématiques inconnus, on sait que cette capacité proviendra de la conjonction d'une multitude de petits facteurs comme la vitesse de circulation de l'influx nerveux dans le cerveau, le temps passé à s'entraîner sur ce type de problème, l'état de fatigue du sujet, le fait que ses parents possédaient eux-mêmes une certaine aptitude générale à traiter cette classe de problèmes, la qualité et la quantité de nourriture reçue pendant la grossesse de la mère, etc. Alors, on peut prouver mathématiquement qu'une telle conjonction de facteurs aléatoires produira une distribution de type normale ou gaussienne. Autrement dit, les observations que l'on pourra faire devraient se répartir selon une courbe en cloche dite courbe de Gauss

Bien entendu, on peut avoir d'autres présupposés théoriques, et donc construire mathématiquement d'autres distributions théoriques. À chacune de ces distributions théoriques correspondent un ensemble de postulats de départ qui, s'ils sont respectés, induisent une distribution de la forme correspondante. Les plus connues pour nous étant probablement la loi du t de student, la loi du F de Fisher, la loi du Chi-deux.

C. La distribution théorique correspond à l'hypothèse nulle parfaite

Pour la suite de la démarche, nous allons partir du principe que la distribution théorique correspond à la distribution théorique de l'hypothèse nulle.

En effet, les lois théoriques ignorent totalement l'hypothèse expérimentale du chercheur et ne tiennent compte que d'une distribution aléatoire dans les conditions étudiées. Si l'on admet que les postulats d'une distribution théorique (ou loi) devraient s'appliquer dans la situation étudiée, nous pouvons alors associer directement la distribution théorique et la distribution que l'on observerait idéalement si l'hypothèse nulle  était vraie.

Il nous reste à trouver un moyen de comparer la distribution théorique, qui représente l'hypothèse nulle, et la distribution observée, qui représente la réalité. La suite de la démarche va consister à calculer la probabilité d'avoir les valeurs observées dans l'hypothèse où la loi théorique est valide. Et nous pourrons alors utiliser cette probabilité comme mesure du risque alpha.

La clé de ce calcul consiste alors à observer que...

D. Les paramètres d'une distribution théorique peuvent être associés à une probabilité

D.1. Principe

Prenons l'exemple de la loi de distribution dite normale. On sait que la loi normale est caractérisée par deux paramètres, sa moyenne μ et son écart-type σ.

Connaissant ces deux paramètres, et sous l'hypothèse que la distribution est effectivement normale, on peut alors dire que 68% des observations seront comprises entre la moyenne moins la valeur d'un écart-type et la moyenne plus la valeur d'un écart-type. De même 95% des observations seront comprises dans l'intervalle de deux écarts-types autour de la moyenne. Ou, ce qui revient au même, que moins de 5% des observations seront situées à plus de deux écarts-types de la moyenne.

Là où l'information devient intéressante pour notre sujet, c'est que l'on peut raisonner aussi dans l'autre sens pour, à partir de la valeur d'une observation particulière, calculer la probabilité de rencontrer une telle valeur. Si cette probabilité est trop faible, on tendra alors à rejeter l'hypothèse nulle (le hasard explique difficilement qu'on ait observé cette valeur) et sinon on acceptera l'hypothèse nulle (le hasard pourrait facilement expliquer cette observation).

Ce type de raisonnement s'applique pour la loi normale mais aussi pour toute autre loi dont on connait les paramètres : loi du t de Student, Loi du F de Fischer, Loi du \chi^2....

D.2. Exemple

Supposons que nous voulons savoir si notre échantillon de données a une distribution normale. On sait que la forme d'une distribution normale est symétrique. On peut donc calculer à partir des valeurs de l'échantillon une statistique qui décrit à quel point notre échantillon est asymétrique. Une asymétrie de 0 correspond à une distribution parfaitement symétrique, une asymétrie de 1 correspond à une déviation vers la droite, une asymétrie de 2 est encore plus biaisée à droite, une asymétrie de -3 est encore plus biaisée, mais à gauche, etc.

Cette statistique d'asymétrie suit elle-même une distribution normale, c'est-à-dire que si l'on calculait cette statistique pour une multitude d'échantillons tirés d'une distribution symétrique (par exemple, on extrait aléatoirement 1000 échantillons de données de la population symétrique, et on obtient donc 1000 valeurs de la statistique d'asymétrie), la distribution des valeurs d'asymétrie suivrait à peu près une courbe de Gauss de moyenne 0 et d'écart-type 1.

Or, pour une valeur donnée qui suit une loi normale, on peut savoir quelle est la probabilité de tirer par hasard une valeur, plus petite (ou inversement, plus grande), ou plus éloignée de la moyenne, ou au contraire plus près de la moyenne. Cette probabilité correspond aux pourcentages d'observations qui dans la distribution sont inférieures (resp. supérieures) ou plus éloignées (resp. plus près) du centre de la distribution. Nous renvoyons à l'article sur la représentation des distributions). 

Partant de là, si notre échantillon donne une valeur d'asymétrie disons de 4, on peut calculer que la probabilité que notre échantillon soit issu d'une population symétrique est d'environ p =0,00006. Dans ce cas, il est difficile de croire que notre échantillon est issu d'une population symétriquement distribuée.

Voyons maintenant de plus près le calcul de probabilité associé à la fonction normale, car il va servir de modèle pour tous les autres calculs de probabilité.