Statistique : comparer des moyennes: Comparer deux échantillons appariés.

2. Comparer deux moyennes : test du t de Student

2.4. Comparer deux échantillons appariés.

L'hypothèse nulle est ici la suivante : m ₁ =m ₂ . Ou encore, ce qui revient au même, m ₁ -m ₂ =0. Par exemple, si l'on a fait une comparaison avant-après, en faisant la différence des deux valeurs obtenues pour chaque sujet, on obtient une nouvelle variable qu'il suffit de comparer, par un test à un échantillon vu précédemment, contre la valeur de référence 0. On pourra ensuite interpréter la différence en termes de progression : si la moyenne est significativement supérieure à 0 il y aura eu augmentation, si la moyenne est significativement inférieure à 0 il y aura eu diminution. Enfin, si la différence n'est ni significativement supérieure ni significativement inférieure à zéro, on ne peut pas dire qu'il y a un effet avant-après.

Préalables spécifiques de cette version du test de Student :

1. Il faut avoir deux échantillons d'un même type de mesure (par exemple, un temps de réponse dans les deux cas) recueillis à raison de deux données par individu statistique et sur lesquelles on peut procéder à une différence.

2. Les données de l'échantillon devraient idéalement être normalement distribuées. Cliquez ici pour accéder à l'article expliquant comment vérifier si cette condition est réalisée.

2.1. Obtenir la valeur de t

2.1.1. Pour les pressés : "En très bref"

À partir des deux échantillons de données appariées, on construit la variable de différence en calculant pour chaque ligne i , la valeur x_i = x _i1 - x_i ₂ . Cela nous donne un échantillon réel de taille n (ici n couples de données), de moyenne m et d'écart-type s.

Selon les informations dont on dispose, on applique la formule avec l'erreur standard ES,

ou, ce qui revient au même, celle avec l'effectif et l'écart-type d'échantillon,

On présente le résultat en écrivant t ( ddl )=n.nn (pour la présentation de la valeur p , voir l'article général sur la norme APA de présentation ).

2.2. Comment obtenir la valeur p associée ?

Il nous faut connaître la valeur t bien sûr et le nombre de degrés de liberté.

Ici l'échantillon virtuel a la même taille que l'échantillon réel, soit n individus. Le nombre de degrés de liberté est directement ddl=n -1.

Si elle n'est pas directement donnée par votre logiciel de statistique, la valeur p associée s'obtient

soit en regardant dans une table du t de student en prenant comme entrée la valeur du t ainsi calculée et comme nombre de degrés de liberté la valeur n -1 où n est le nombre de mesures.
Soit au moyen d'une formule de tableur sous Microsoft Office Excel ou OpenOffice Calc : "=LOI.STUDENT.BILATERALE( t ; ddl )"

2.3. Unilatéral ou bilatéral ?

Par défaut, on travaillera en bilatéral et on se contentera de la valeur p précédemment obtenue.

Si toutefois on dispose d'une hypothèse orientée et que les statistiques descriptives vont dans le sens attendu (typiquement, on s'attend à ce que m > 0 et c'est le cas au niveau descriptif, ou bien on s'attend à ce que m < 0 et c'est le cas au niveau descriptif), alors on peut travailler en unilatéral : il suffit alors de prendre la valeur p préalablement obtenue et la diviser par 2 avant de décider si le test est significatif ou non.

2.4. Un exemple

Dans une expérience sur le risque lié à l'alcool, on a demandé à chacun des 31 participants d'évaluer le risque associé à une situation de conduite sur une échelle de 1 à 5.

On a obtenu, en rangeant les données à raison d'une ligne par sujet, le tableau suivant :

Sansalcool	Avec alcool	Différence
1	5	4
1	5	4
1	5	4
1	4	3
1	4	3
1	4	3
1	4	3
1	5	4
1	5	4
1	4	3
1	5	4
1	4	3
1	5	4
1	5	4
2	5	3
1	5	4
1	5	4
1	4	3
1	5	4
1	5	4
2	4	2
1	5	4
1	5	4
1	3	2
2	5	3
1	5	4
1	3	2
1	5	4
1	5	4
1	3	2
1	4	3

En première approximation, on a constaté que la moyenne de la situation sans alcool est de 1.10 alors que la colonne 2 est en moyenne à 4.52. Descriptivement, on pourrait donc dire que les participants jugent la situation 2 plus risquée que la situation 1... mais est-ce vrai statistiquement ?

La troisième colonne a été obtenue en faisant la différence de la colonne 2 (avec alcool) et de la colonne 1 (sans alcool). Nous allons travailler à partir de cette colonne.

À partir de ce tableau, il est facile de calculer la moyenne et l'écart-type des différences, soit

Pour ceux qui se rappellent que la moyenne des différences est égale à la différence des moyennes (les effectifs étant ici égaux), cette moyenne est sans surprise puisque 5.52 - 1.10 = 3.42.

Pour l'écart-type,

Nous obtenons

Ensuite sous Excel par exemple, en appliquant la formule =LOI.STUDENT.BILATERALE( t ; ddl )" avec le t que l'on vient de calculer et ddl=31-1=30 degrés de libertés, on trouve p =2.4x10 ^-22, ce qui est quasiment égal à zéro. Autrement dit, ce n'est même pas la peine de se poser la question de la latéralité : de toute façon le test est très nettement significatif.

Finalement on peut rapporter le résultat, conformément aux normes :

t (30)=26.4, p< .001, ce qui est significatif : on peut donc conclure que la situation 2 est jugée plus risquée par les participants que la situation 1.

Accessibilité

Tout remettre à zéro

Couleur de fond