Statistique inférentielle et psychométrie appliquée

Cette grande leçon introduit la statistique inférentielle et la psychométrie appliquée, ceci dans la  perspective de permettre aux étudiants de comprendre les enjeux épistémologiques, scientifiques et techniques de ces matières. Ces enjeux comprennent en particulier la mise au point de méthodes objectives pour l’étude de la variabilité induite expérimentalement ou observée en condition naturelle.

Cette leçon est essentielle pour comprendre les suivantes, car tous les concepts de base de la statistique inférentielle y sont expliqués.

10. Évaluer la valeur p

10.4. Calculer la valeur p par le t de student, le chi-deux et le F


A. La loi du t de student

La distribution du t de student est légèrement différente de celle du z, car elle est dérivée de cette dernière en examinant la distribution des échantillons de taille n que l'on va extraire d'une distribution normale. Elle admet donc un paramètre supplémentaire : le nombre de degrés de libertés (ddl=n-1). On pourrait dire que la courbe de densité de probabilité du t de student est essentiellement une déformation légère de la loi normale et plus le nombre de degrés de liberté est grand, moins la déformation est prononcée.
De ce fait, une fois qu’on a renseigné le nombre de degrés de liberté, si l’on dispose d’une note t de student, l’utilisation est rigoureusement la même que celle d’une note z. Le graphique suivant illustre une loi du t de student à 30 degrés de liberté. On voit que la valeur critique pour alpha=.05 en bilatéral est atteinte pour un t de 2.04, ce qui n’est pas très différent du 1.96 que l’on avait pour les valeurs z.


 Si l’on a moins de degrés de liberté, la valeur critique augmente, et réciproquement. Avec 500 degrés de liberté et au-delà, la valeur critique tombe à 1,96 et converge ensuite lentement vers cette valeur.

 

B. La loi du \chi^2 ("Khi deux" ou "Khi carré")

Comme son nom l’indique, la loi du Khi-2 sert à tester une valeur observée du Khi-deux. Donc à calculer le risque pris si l’on décide de rejeter l’hypothèse nulle que les résultats soient le fait du hasard.
Cette distribution accepte un paramètre, le nombre de degrés de libertés. Rappelons que le chi-deux s’utilise lorsque l’on teste la répartition des effectifs dans une table de L lignes et C colonnes et que le nombre de degrés de liberté est alors (L-1)(C-1). En effet, plus la table est grande, et plus le chi-deux peut être élevé par pur hasard (car il y a plus de cases susceptibles de présenter des écarts entre effectifs observés et effectifs théoriques).

La figure suivante représente l’obtention de la valeur critique du chi-deux pour le seuil alpha=.05 avec 5 degrés de libertés (par exemple une table 2 lignes 6 colonnes). On voit que la valeur critique de khi-deux est 11.07 au seuil de p=.05.

La figure suivante représente l’obtention de la valeur critique du chi-deux pour le même seuil alpha=.05 mais avec 10 degrés de libertés. 

On voit que la valeur critique est maintenant de 18.30. C’est plus élevé qu’avec 5 degrés de liberté car contrairement à ce qui se passe dans l’utilisation des tables du t, le nombre de degrés de liberté ne dépend pas du nombre de sujets mais du nombre de cellules du tableau. Donc en dépit du même nom « degrés de liberté » les réalités sous-jacentes sont très différentes et influent différemment l’obtention des valeurs p.

 

Pour le reste, l’idée est la même qu’avec les lois normales et du t à ceci près que l’absence de symétrie empêche de distinguer les tests en unilatéral ou bilatéral : On ne s’intéresse ici qu’à l’extrémité droite de la courbe : c’est la surface à droite de la valeur critique du Chi-deux qui doit être la plus réduite possible si l’on veut pouvoir rejeter l’hypothèse nulle.

 

C. La loi du F

La loi du F accepte deux paramètres, qui sont encore des degrés de libertés. Le premier paramètre est de même nature que les degrés de liberté de la loi du chi-deux. En effet, le F sert à comparer des moyennes, comme le t, mais dans un cas où peut y avoir plusieurs facteurs, et chaque facteur peut lui-même avoir plus de deux modalités. Le croisement des modalités des facteurs constitue donc un tableau en soi et ce premier degré de liberté résulte de ce croisement. Toutefois, le mode de calcul étant différent, l’influence du nombre de degrés de libertés sur la détermination des valeurs critiques ne fonctionne pas comme pour le chi-deux.

Le second paramètre dépend du nombre d’observations concernées par le test. C’est donc un degré de liberté de même nature que celui le test du t. D’ailleurs, lorsque l’on teste un t à un seul degré de liberté (comparaison de deux groupes), la valeur de F est en réalité simplement le carré du t de student que l’on aurait en faisant la même comparaison. Afin de l’illustrer, vous pouvez comparer la figure suivante, où l’on a un seul ddl pour le premier paramètre et 30 pour le second. On trouve alors comme valeur critique 4.170877. Avec deux groupes et 30 sujets, il faut donc que la statistique F atteigne cette valeur au moins pour que le test soit significatif au seuil alpha=5%. Or, vous pouvez remarquer que la racine carrée de 4.170877 est 2.042272, ce qui est bien la valeur critique que nous avions obtenue pour le t de Student à 30 degrés de liberté.
 

Si maintenant, nous étudions la valeur critique de la loi du F toujours au seuil de 5% et toujours avec 30 ddl comme second paramètre, mais 6 ddl comme premier paramètre (par exemple, nous testons un facteur à 7 modalités ou bien une interaction entre un facteur à 4 modalités et un facteur à 3 modalités) : 


On voit bien que la distribution a changé de forme, tandis que la valeur critique est tombée à 2.42.

 

Comme dans le cas du \chi^2, l’absence de symétrie empêche de distinguer les tests en unilatéral ou bilatéral : On ne s’intéresse ici qu’à l’extrémité droite de la courbe : c’est la surface à droite de la valeur critique du khi-deux qui doit être la plus réduite possible si l’on veut pouvoir rejeter l’hypothèse nulle. C’est pourquoi lorsque l’on n’a que deux groupes à comparer et une hypothèse orientée, il vaut mieux utiliser un t.