Statistique : comparer des moyennes

1. Principe général de la comparaison de moyennes

Objectifs. Mettre l'étudiant en position de comprendre quand et pourquoi réaliser une comparaison de moyennes à un ou plusieurs groupes. L'aiguiller vers les essentiels qui expliquent comment le faire concrètement.

Prérequis.

Voir aussi : Vidéos de savoir-faire sur la comparaison de moyennes

Résumé. On commence par introduire la notion de comparaison de moyennes sur un exemple. On montre que l'utilisation de la moyenne permet de gommer partiellement les effets aléatoires. Néanmoins, on ne peut éviter de recourir à la démarche générale de l'inférence statistique. On montre alors comment cette démarche s'applique dans différents cas de comparaisons de moyennes (de 1 à n groupes) en spécifiant notamment la construction de l'hypothèse nulle.

Le détail de la technique des différentes pratiques est présenté dans la rubrique des savoir-faire, et en particulier les vidéos de démontration des techniques paramétriques de comparaisons de groupes (t de student et sur l'ANOVA) ainsi qu'aux vidéos sur les techniques non paramétriques de comparaison de groupes.

1.1. Introduction à la comparaison de moyennes

A. Un exemple : évaluer l'effet d'une méthode thérapeutique

Commençons par un exemple simple : vous disposez d'une nouvelle technique psychothérapeutique dont vous voulez tester l'effet sur le bien-être des sujets qui la reçoivent. Vous projetez donc de mesurer par exemple l'humeur des patients avant et après la thérapie. Si la moyenne a augmenté, c'est que la thérapie (ou une autre cause que vous ignorez) a amélioré le bien-être des patients, dans les autres cas, l'intérêt de mettre en œuvre une telle thérapie serait douteux.

Passant à l'action, vous préparez une série de mesures sur un certain nombre de patients dont vous évaluerez l'humeur générale avant qu'ils commencent la thérapie. Idéalement, vous devriez aussi mesurer l'humeur chez un certain nombre de patients qui ne recevront pas la thérapie, ce qu'en méthodologie expérimentale on appelle un "groupe contrôle", mais laissons ce problème de côté pour le moment.

Certains sujets ont l'air contents d'avoir reçu la thérapie, d'autres sont moins convaincus. Il est donc très possible que d'autres facteurs que la thérapie aient joué un rôle dans l'humeur de certains patients, que ceux-ci en soient conscients ou non (facteurs de santé, interaction entre le patient et le thérapeute, disparition d'une cause environnementale de stress, autres facteurs non identifiés). En d'autres termes, il se peut que vous observiez une amélioration, mais que celle-ci ne soit que le fait du hasard, c'est-à-dire la façon dont les sujets auront été, au moment de la mesure, confrontés à toutes sortes de petits effets qui font varier l'humeur et que vous ne contrôlez pas (le degré de fatigue, une rencontre amoureuse, un petit événement anodin plaisant pour la personne, etc.) Dans ces conditions, comment savoir si les éventuels changements de l'humeur générale que vous aurez mesurés sont imputables ou non à la thérapie ou à l'effet aléatoire d'une multitude de facteurs que vous ne maîtrisez pas ?

Ou pour le dire plus techniquement, vous avez deux échantillons de mesures, avant et après, et vous avez besoin de savoir si l'écart entre les deux échantillons est suffisamment grand et stable pour que vous puissiez considérer que la thérapie a un effet positif. Comment faire ?

1.2. Une propriété intéressante de la moyenne : gommer les aléas.

...et ce d'autant plus qu'on la calcule sur un grand nombre d'observations.

Admettons, pour simplifier, qu'il existerait une "vraie" valeur d'humeur pour chaque individu, valeur que vous cherchez à mesurer et à améliorer par une thérapie. Mais les individus vivent des expériences diverses qui constituent autant de perturbations de l'humeur. Chacune de ces perturbations est comme un petit effet aléatoire qui va dévier la mesure de l'humeur. Par exemple, Lucas aura appris la veille une mauvaise nouvelle, et son score individuel s'en trouvera abaissé indépendamment de la thérapie. Par ricochet, le score moyen de son groupe se trouvera aussi abaissé.

Par définition, les petits effets aléatoires sont imprévisibles. De ce fait, si beaucoup de petits effets se cumulent, certains vont tirer la moyenne vers le haut, d'autres vers le bas. Ils vont donc tendre à s'annuler les uns les autres et on peut montrer qu'en augmentant le nombre de sujets, les moyennes des échantillons obtenus tendent vers la "vraie" moyenne (sauf bien sûr s'il existe un biais systématique dans le recueil) : Plus vos échantillons de mesures avant et après seront importants, et moins vous risquerez de faire d'erreur en vous servant de ces échantillons comme étant des valeurs proches de la vraie valeur.

Pour le dire plus techniquement, et toutes choses étant égales par ailleurs,
_ plus l'échantillon de mesures avant est grand, et plus la moyenne de l'échantillon des mesures avant sera proche de la "vraie" valeur d'humeur des sujets n'ayant pas reçu la thérapie.
_ plus l'échantillon de mesures après est grand, et plus la moyenne de l'échantillon des mesures après sera proche de la vraie valeur d'humeur des sujets ayant reçu la thérapie.
De ce fait, en comparant les deux valeurs, vous obtiendrez une estimation de l'efficacité de la thérapie.

Mais d'abord examinons de plus près ce que signifie vraiment "comparer des moyennes".

1.3. Que signifie comparer des moyennes ?

Comme il a été vu dans le cours de statistiques descriptives consacré à la moyenne, celle-ci est un indice de tendance centrale. Autrement dit, une moyenne représente fondamentalement le centre d'un ensemble de points, on dit souvent d'un "nuage" de points. La comparaison de moyennes peut donc se concevoir comme l'évaluation de la distance entre le centre d'un nuage de points (le "point moyen" de ce nuage) et une autre valeur prise en référence. Cette autre valeur peut être la moyenne d'un autre groupe, comme lorsque nous comparons les moyennes des tailles des individus d'un groupe d'hommes et d'un groupe de femmes. Ce peut aussi être une constante. Ainsi je peux vouloir prendre un groupe d'individus donnés, disons des enfants ayant été victime de la famine, et tester s'ils ont en tant que groupe un QI plus petit, plus grand, ou égale à la moyenne de la population globale. Celle-ci étant par construction égale à 100, je vais donc comparer le centre du nuage de points constitué par les mesures prises sur le groupe que j'étudie et rapporter cette valeur calculée à la valeur de référence de la population générale, 100.

Rappelons au passage que cette valeur calculée peut n'avoir aucune existence réelle. Ainsi, lorsque l'on calcule que le français moyen a 1,9 enfants, il est bien clair qu'il n'existe aucun français réel ayant véritablement 1,9 enfants !

Revenons à votre problème de départ, évaluer l'effet d'une thérapie. Arrivé là, vous disposez d'une stratégie pour avoir des estimations relativement fiables, pourvu que vous disposiez de suffisamment de participants pour vos mesures... Mais, avez-vous complètement résolu votre problème ?

En fait non. Tout d'abord, les participants ne sont pas en nombre infini. Ainsi, vos estimations ne fourniront jamais la vraie valeur, mais resteront toujours de simples estimations entachées d'un certain risque d'erreur. Dans la pratique, vous serez même généralement obligés de vous contenter d'un nombre très limité d'observations et donc non seulement vous n'aurez que des estimations, mais encore, il n'est pas sûr du tout que ces estimations soient bonnes !

Voilà qui nous amène au deuxième problème technique à résoudre : comment tenir compte du caractère nécessairement imparfait de vos échantillons ? C'est précisément là que la question de l'inférence statistique entre en jeu.

1.4. L'inférence statistique dans la comparaison de moyennes

Comme il a été évoqué dans les articles sur l'inférence statistique, cette dernière consiste généralement dans un premier temps à poser tout d'abord une hypothèse dite nulle, selon laquelle la totalité des effets observés seraient dus au pur hasard (compte tenu de la structure de la situation bien sûr). On prend ensuite une décision qui met en balance deux risques opposés : le risque de se tromper si l'on fait comme si l'hypothèse nulle était vraie (c'est-à-dire qu'on décide d'attribuer, à tort, toutes les variations observées, au seul effet du hasard) et le risque de se tromper en considérant que l'hypothèse nulle était fausse (c'est-à-dire que l'on décide de considérer que quelque chose de systématique était à l'œuvre alors qu'en fait seul le hasard a joué un rôle dans les résultats).

Pour prendre cette décision, on s'appuie sur des techniques statistiques, qui varient selon les situations, et qui permettent de calculer la probabilité que les données que l'on a réellement observées soient compatibles avec cette hypothèse nulle. Ou pour le dire plus simplement, on calcule la probabilité que les données obtenues soient le fruit du hasard. Cette probabilité est alors rapportée à une valeur conventionnelle d'acceptabilité, typiquement 5% dans la recherche scientifique. Bien entendu, si le risque associé à un certain type d'erreur est exceptionnellement grand, on pourra se donner des seuils de décision plus sévères ou plus laxistes, selon les cas.

Ceci posé, examinons comment cette stratégie s'applique dans le cas de la comparaison de moyennes.

4.1. L'hypothèse nulle dans la comparaison de moyennes

Dans le cas de la comparaison de deux moyennes d'échantillons, il y a bien sûr toujours une différence entre les deux moyennes, il suffit pour cela de se donner la précision de mesure suffisante. L'hypothèse nulle, on ne le répétera jamais assez, est l'hypothèse selon laquelle seul le hasard explique les variations de mesures. Donc, dans le cas de la comparaison des moyennes de deux groupes, l'hypothèse nulle consiste à considérer que les différences de moyennes entre les deux groupes sont dues au hasard. Et par conséquent, que la "vraie" valeur moyenne de chacune des populations d'où sont tirés les échantillons est en fait unique¹.

Cette analyse se généralise sans difficulté au cas de plus de deux groupes. Si nous avons par exemple 10 groupes, l'hypothèse nulle énonce que les valeurs "vraies" des populations dont sont issus les 10 groupes sont identiques.

Dans le cas d'un seul groupe comparé à une constante, l'hypothèse nulle revient à dire que la moyenne observée de l'échantillon ne s'écarte de la constante de référence que par l'effet du hasard, et donc que la valeur vraie de la population d'où est tiré l'échantillon est exactement la valeur de référence.

1. Une précaution intellectuelle : attention au fait que même si les populations ont la même valeur "vraie", cela ne signifie pas forcément pour autant qu'il n'y a qu'une seule et même population sous-jacente aux différents échantillons. Ces populations peuvent diverger sur d'autres critères qui n'ont pas été mesurés.

4.2. Le calcul de la valeur-p

Nous distinguerons ici essentiellement deux techniques pour calculer cette probabilité dans le cas de la comparaison de moyennes : le test du t de Student et l'analyse de variance ou ANOVA.

L'étude de ces deux techniques requiert des articles complets pour chacune d'elles, aussi nous bornerons-nous ici à dire que ces techniques sont en réalité complémentaires et que la règle de décision suivante s'applique pour choisir quelle technique utiliser :

Si vous avez seulement un groupe (à comparer à une constante de référence) ou deux groupes (indépendants ou appariés), alors il vaut mieux utiliser le test de t. En particulier, si vous avez des hypothèses orientées (non seulement vous attendez des différences, mais encore vous avez une théorie permettant de prévoir quel groupe aura la moyenne la plus élevée, ou bien votre théorie vous permet de prédire dans quelle direction la valeur moyenne s'écartera de la valeur constante de référence), alors le test t sera plus facilement significatif que l'ANOVA.
Si vous n'avez que deux groupes et pas d'hypothèse orientée, les deux techniques sont équivalentes.
Si vous avez plus de deux groupes, seule l'ANOVA s'applique.

2. Comparer deux moyennes : test du t de Student

Objectifs. Mettre l'étudiant en position de savoir quand et comment réaliser une comparaison de moyenne(s) à un ou deux groupes.

Prérequis.

Résumé. On expose la technique générale des trois principaux cas de test t :

comparaison d'un échantillon à une constante ;
comparaisons de deux échantillons indépendants ;
comparaison de deux échantillons appariés.

Le cas du test t dans les analyses post-hoc est renvoyé à l'article sur l'ANOVA.

2.1. Comprendre le test de Student

A. Dans quel cas appliquer un tel test ?

Objectif. Le test du t de Student s'applique lorsque l'objectif est soit de comparer deux moyennes entre elles, soit de comparer une moyenne contre une constante.

Type des informations disponibles : Les valeurs mesurées doivent être numériques, faute de quoi l'idée même de moyenne n'a pas de sens.

Distribution des observations : Les données doivent être normalement distribuées : l'histogramme doit être symétrique et ressembler peu ou prou à une courbe en cloche. On peut aussi appliquer des tests formels de normalité.

Condition d'indépendance : Les données doivent être indépendantes (les données d'un sujet ne sont pas censées avoir influencé les mesures faites sur un autre sujet).

B. Qu'est-ce que la statistique t ?

B.1 Rappel sur la loi normale centrée réduite

Vous trouverez dans le cours de L1 une présentation simple de la loi normale centrée réduite, accompagnée d'un générateur de simulations pour que vous puissiez faire des tests : Cliquez ici pour y accéder.

B.2 Notions d'échantillons virtuels et réels.

Avertissement : Ces deux notions sont propres au présent cours et vous ne les trouverez sans doute nulle part ailleurs. Nous les introduisons afin de permettre une vue générale du test t.

Nous appelons ici échantillon réel un ensemble de mesures directement réalisées sur une population. Par exemple, une mesure d'intelligence prise sur un ensemble de participants à une étude.

Nous appelons échantillon virtuel l'échantillon des données composé à partir des éléments à comparer. Ces éléments peuvent être (1) un échantillon réel et une constante (cas de la comparaison d'une moyenne à une constante); (2) deux échantillons réels de mesures indépendantes (c.-à.d. des mesures prises sur des individus différents et qui ne se sont pas influencés par ailleurs); (3) deux échantillons réels de mesures appariées (c.-à.d. des paires de mesures prises pour chaque individu, où la première mesure va dans l'échantillon réel 1 tandis que la seconde mesure va dans l'échantillon réel 2).

B.3 Formule générale de la statistique t.

Dans toutes les formes du test de Student, la statistique calculée se nomme " t ". Soient m_v la moyenne d'un échantillon virtuel de taille n_v et ES _v son erreur-standard (on rappelle que l'erreur standard d'un échantillon s'obtient en divisant l'écart-type par la racine carrée de l'effectif), on a

$t=\frac{m_v}{ES_v}=m_v\times\frac{\sqrt{n}}{s_v}$

Cette formule s'applique dans le cas des trois tests t considérés dans cet article, test t pour échantillon unique, pour échantillons appariés et pour échantillons indépendants. Comment est-ce possible ? Tout simplement parce que l'échantillon auquel nous faisons référence ici est un échantillon virtuel que nous construirons différemment dans les trois cas. Nous verrons comment plus loin mais, pour l'instant, continuons l'analyse sur cet échantillon virtuel.

Pourquoi utiliser cette note t plutôt que simplement une valeur centrée-réduite z dont la distribution est connue puisque c'est celle de la loi normale centrée-réduite ? Eh bien, pour la raison suivante, qui se comprend par un raisonnement en deux points.

Parce que si la moyenne m_v et l'écart-type s_v de l'échantillon peuvent être considérés comme des estimateurs des paramètres "réels" de la population d'où est tiré l'échantillon, à savoir sa moyenne μ et son écart-type σ, ces estimateurs ne sont pas l'exacte réalité mais seulement une approximation de la réalité.
Si cette approximation de la moyenne μ par m peut être considérée comme fiable (au sens où si l'on tirait un nombre infini d'échantillons, la moyenne des moyennes issues de tous ces tirages convergerait vers la "vraie" moyenne, celle de la population), ce n'est pas le cas pour l'écart-type s . En effet, ce dernier est biaisé de façon systématique par rapport à l'écart-type σ de la population d'où est extrait l'échantillon, et la taille du biais dépend de la taille des échantillons que l'on prend : plus l'échantillon est petit et plus le biais est important. Il nous faut donc une loi qui corrige ce biais. Comme ce biais dépend de la taille des échantillons, il faut que cette loi admette un paramètre qui représente cette taille alors que la loi normale centrée-réduite ne dépend pas du tout de l'effectif.

Mais alors, si l'on ne peut pas utiliser la loi normale...

C. Comment obtenir la valeur p associée ?

C.1. La loi du t

La variable t suit elle-même une loi ou distribution, dite loi du t de Student que l'on a présentée dans le cours de première année. Simplement, on peut considérer que les valeurs de t constituent une loi normale aménagée pour corriger le biais induit par la petite taille de l'échantillon. Plus l'échantillon est grand et moins il y a de biais à corriger et donc plus la loi du t ressemble à la loi normale.

La loi normale dépend de la moyenne et de l'écart-type, mais dans la loi centrée-réduite, ces deux paramètres sont fixés à 0 et 1 de sorte que la loi normale centrée-réduite est entièrement déterminée. La loi du t en est une sorte d'adaptation. Elle dépend d'un paramètre supplémentaire, le nombre de degrés de liberté, qui traduit l'ampleur de la correction qu'il faut apporter. Si l'on connaît le nombre de degrés de liberté, on peut alors déduire les valeurs p associées exactement selon les mêmes principes que l'on a utilisés pour la loi normale centrée réduite.

Il existe des tables du t que l'on peut utiliser lorsque l'on n'a pas de logiciel, mais on trouve maintenant des logiciels gratuits, à commencer par le tableau de la suite OpenOffice, permettant de calculer les valeurs de p associées à t avec précision. Vous trouverez ici des vidéos de démonstration du calcul du test de student.

C.2. Unilatéral ou bilatéral ?

Comme la distribution du z, la distribution du t est symétrique autour de 0. Par conséquent, si l'on possède une hypothèse théorique précisant le sens de la différence attendue des moyennes que l'on compare (par exemple, on s'attend à ce que la taille moyenne des garçons soit supérieure à la taille moyenne des filles d'une même classe d'âge) ET que les résultats vont dans le sens attendu, alors on peut diviser la valeur p que donnait le test bilatéral par deux. Ainsi, pour 50 degrés de liberté une valeur de t =1.69 est associée à une valeur p de 0.0972. C'est supérieur au seuil conventionnel de 5% et donc on dira que ce n'est pas significatif (on pourra cependant parler de "tendance" car la valeur p est comprise entre .05 et .10.

Si l'on peut travailler en unilatéral, on divise cette valeur par 2, ce qui donne p =.049, ce qui cette fois est significatif. Bien évidemment, lorsque vous rapportez vos résultats, il faut préciser que la valeur a été calculée en unilatéral.

D. Comment présenter les résultats d'un test t ?

Nous nous basons ici sur les normes internationales en vigueur en psychologie, les normes de l'APA (American Psychological Association), 7^e édition.

D.1. Les statistiques descriptives

Le test du t est avant tout une comparaison de moyennes, comparaison qui repose sur une ou des mesures de dispersion. Il faut donc impérativement rapporter les données de statistiques descriptives, y compris la dispersion. Les débutants ont souvent tendance à l'oublier, tout à la joie de pouvoir rapporter un résultat "significatif", mais les statistiques inférentielles ne sont que des informations de second ordre, des indicateurs sur la fiabilité des résultats obtenus. Les informations de premier ordre, celles qui disent ce que l'on a vraiment observé, ce sont les statistiques descriptives et non les statistiques inférentielles !

Ces statistiques descriptives peuvent être présentées dans le texte du compte-rendu ou bien, le plus souvent, dans une table.

Lorsque l'on compare des groupes de tailles différentes, il est courant de donner comme indice de dispersion non pas la variance ou l'écart-type, qui sont très sensibles à la taille de l'échantillon, mais l'erreur standard qui l'est moins. On l'a dit plus haut, l'erreur standard s'obtient en divisant l'écart-type par la racine carrée de la taille de l'échantillon. Par exemple, si l'écart-type vaut 3.0 et qu'il y a 20 sujets, cela fait une erreur standard de 3/racine(20) = 0.67.

D.2. Les statistiques inférentielles.

Comme la distribution du t dépend du nombre de degrés de liberté, il convient de préciser celui-ci lorsque vous rapportez vos résultats. Cela donne une structure de la forme suivante :

t (ddl)=n.nn, p =.xxx

ddl est le nombre de degrés de liberté. Dans un test t, c'est le nombre de sujets de l'échantillon virtuel diminué de 1. Nous verrons dans chacun des trois cas de test t comment calculer ce nombre.
La valeur n.nn peut se rapporter avec un signe ou non mais, en tout cas, il est inutile de rapporter plus de deux décimales. Les logiciels donnent souvent des valeurs signées et avec plus de deux décimales, mais en pratique le signe du t est sans importance, et donner plus de deux décimales est foncièrement inutile.

Enfin, la façon de rapporter les valeurs de p est tout à fait conventionnelle et ne dépend pas du type de test utilisé ¹ .

¹. Selon les normes de publication en vigueur en psychologie scientifique, il est maintenant d'usage de rapporter, outre les valeurs de t et le p associé, une variable représentant ce qu'on appelle la "taille d'effet". Le calcul manuel de cette dernière n'est pas encore intégré dans la présente version de ce cours. Le calcul par logiciel des tailles d'effets est toutefois présenté dans les vidéos de savoir-faire sur les comparaisons de moyennes.

2.2. Comparer un échantillon contre une constante

Voir aussi : vidéo de savoir-faire sur le test de student à échantillon unique par logiciels

Préalables spécifiques de cette version du test de Student :

1. Il faut soit avoir un échantillon de données recueillies à raison d'une seule valeur par sujet, soit deux échantillons d'un même type de mesures (par exemple, un temps de réponse dans les deux cas) recueillis à raison de deux données par sujet et sur lesquelles on peut procéder à une différence, laquelle sera comparée à une constante, généralement 0, mais pas nécessairement.
2. Les données de l'échantillon devraient idéalement être normalement distribuées. Cliquez ici pour accéder à l'article expliquant comment vérifier si cette condition est réalisée.
3. Il faut disposer d'une hypothèse sur une valeur de référence. Par exemple, si l'on connaît la valeur moyenne de la variable mesurée dans la population de référence, comparer l'échantillon à cette valeur de référence permet de tester s'il est raisonnable de considérer que notre échantillon provient bien de la population de référence.
4. L'hypothèse nulle est ici la suivante : m = c. Ou encore, ce qui revient au même m - c = 0. Par exemple, si l'on veut tester une hypothèse selon laquelle l'intelligence générale augmente de génération en génération depuis qu'on la mesure (ce qu'on appelle "l'Effet Flynn"). Supposons qu'on dispose d'un test utilisé il y a trente ans. On sait qu'à l'époque une performance donnée sur le test correspondait à l'époque à la valeur de QI=100. On fait passer le test à des jeunes actuels. On observe donc une nouvelle moyenne. On va alors comparer cette moyenne à la valeur de référence 100. Et si l'on trouve que le QI actuel est significativement supérieur à 100 tel que mesuré sur cet outil utilisé à l'époque, alors on pourra conclure que le QI a monté.

2.1. Obtenir la valeur de t

2.1.1. Pour les pressés : "En très bref"

Soit notre échantillon réel de taille n, de moyenne m et d'écart-type s, et soit c la constante à laquelle on veut le comparer.

Selon les informations dont on dispose, on applique la formule avec l'erreur standard ES,

$t=\frac{m}{ES}$

ou, ce qui revient au même, celle avec l'effectif et l'écart-type d'échantillon,

$t=m\times\frac{\sqrt{n}}{s}$

On présente le résultat en écrivant t(ddl)=n.nn (pour la présentation de la valeur p, voir l'article général sur la norme APA de présentation du t).

Voir aussi le lien de pratique avec les logiciels de statistiques :
_ Interpréter des résultats de test t à échantillon unique

2.1.2. Pour ceux qui aiment comprendre : D'où cela vient-il ?

Dans le test du t de Student, la statistique calculée est précisément la valeur t. Dans le cas de la comparaison d'un échantillon contre une constante, voyons quelle formule employer. Commençons par rappeler la formule générale du t :

Soient m_v la moyenne d'un échantillon virtuel de taille n_v et ES _v son erreur-standard, on a

$t=\frac{m_v}{ES_v}=\frac{m_v}{\frac{s_v}{\sqrt{n}}}=m_v\times\frac{\sqrt{n}}{s_v}$

Ici notre échantillon virtuel a pour moyenne m_v = (m - c) où m est la moyenne de l'échantillon réel et c la constante à comparer. Et on a aussi ES_v = ES, où ES est l'erreur standard de l'échantillon réel.

Démonstration. Ce dernier point résulte des propriétés générales de la variance : si l'on construit une nouvelle variable en faisant pour chaque sujet la différence entre la variable de départ et une constante, la variance de la variable d'arrivée est la même que la variance de la variable de départ. Ce qui se comprend aisément puisque la variance étant la dispersion de la variable, la nouvelle variable est tout aussi dispersée que la première ! Les échantillons virtuels et réels ont aussi, dans ce cas, la même taille. Puisque la formule de l'erreur-standard ne dépend que de la variance et de l'effectif, les deux erreurs-standard sont donc égales. CQFD.

Application : De ce qui précède, il suit que

$t=\frac{m}{ES}=\frac{m}{\frac{s}{\sqrt{n}}}=m\times\frac{\sqrt{n}}{s}$

2.2. Comment obtenir la valeur p associée ?

Il nous faut connaître la valeur t bien sûr et le nombre de degrés de libertés.

Ici l'échantillon virtuel a la même taille que l'échantillon réel, soit n individus. Le nombre de degrés de libertés est directement ddl=n -1.

Si elle n'est pas directement donnée par votre logiciel de statistique, la valeur p associée s'obtient

soit en regardant dans une table du t de student en prenant comme entrée la valeur du t ainsi calculée et comme nombre de degrés de libertés la valeur n -1 où n est le nombre de mesures.
Soit au moyen d'une formule de tableur sous Microsoft Office Excel ou OpenOffice Calc : "=LOI.STUDENT.BILATERALE( t ; ddl )"

2.3. Unilatéral ou bilatéral ?

Par défaut, on travaillera en bilatéral et on se contentera de la valeur p précédemment obtenue.

Si toutefois on dispose d'une hypothèse orientée et que les statistiques descriptives vont dans le sens attendu (typiquement, on s'attend à ce que m > c et c'est le cas au niveau descriptif, ou bien, on s'attend à ce que m < c et c'est le cas au niveau descriptif), alors on peut travailler en unilatéral : Il suffit alors de prendre la valeur p précédemment obtenue et la diviser par deux avant de décider si le test est significatif ou non.

2.4. Un exemple

Supposons que l'on ait une hypothèse théorique selon laquelle les astronautes en général (qu'ils aient ou non marché sur la lune) devraient avoir plus de 38 ans en moyenne.

Imaginons que la seule information dont nous disposions est l'âge des astronautes qui ont marché sur la lune au moment de leur sortie sur notre satellite. Nous obtenons le tableau suivant :

Individu	Age
1	38
2	39
3	39
4	37
5	47
6	39
7	39
8	41
9	41
10	36
11	38
12	37

À partir de ce tableau, il est facile de calculer la moyenne et l'écart-type des âges, soit

$m=\frac{\sum_{i=1}^{12}x_i}{12}=39.25$

et

$s=\sqrt{\frac{\sum_{i=1}^n(x_i-m)^2}{n-1}}=\sqrt{\frac{\sum_{i=1}^n(x_i-39.25)^2}{11}}=2.86$

Attention au fait que dans ce cas, le tableau représente un échantillon de la population cible totale (les astronautes en général) et l'on utilise la formule de l'écart-type pour échantillon (on divise par n -1) et non de l'écart-type pour population (où l'on divise par n).

Nous obtenons

$t=(m-38)\times\frac{\sqrt{n}}{s}=(39.25-38)\times\frac{\sqrt{12}}{2.86}=1.514$

Ensuite, sous excel par exemple, en appliquant la formule =LOI.STUDENT.BILATERALE(t ; ddl)" avec le t que l'on vient de calculer et ddl =12-1=11 degrés de libertés, on trouve p =0.15820928.

Pour un test du t, la question suivante à se poser concerne le caractère bilatéral ou non du test. Ici, on a une hypothèse précisant que la moyenne attendue doit être supérieure à 38. C'est bien le cas puisque la moyenne observée est 39.25. Nous sommes donc fondés à travailler en unilatéral et nous divisons simplement la valeur p précédente par 2, ce qui donne 0.08508. Finalement, on peut rapporter le résultat inférentiel, conformément aux normes :

t (11)=1.51, p =.079 en unilatéral, ce qui n'est pas significatif, mais indique néanmoins une tendance.

2.3. Comparer deux échantillons indépendants.

Puisque l'on a deux groupes de sujets, on a aussi deux moyennes m₁ et m₂ . L'hypothèse nulle revient à poser que m₁ = m₂. Un test significatif indiquera que les données ne sont pas très compatibles avec l'hypothèse nulle et donc qu'on a plus probablement m₁ ≠ m_2.

Préalables spécifiques de cette version du test de Student :

1. Il faut soit avoir deux échantillons de données recueillies sur deux groupes de sujets différents.
2. Les données devraient idéalement être normalement distribuées.Cliquez ici pour voir comment tester la normalité de la distribution.
3. Les variances des échantillons réels devraient idéalement être homogènes. Sous SPSS ou Statistica par exemple, le "test de Levene" ne doit pas être significatif. Toutefois cette condition n'est pas rédhibitoire car les logiciels donnent alors des valeurs de p corrigées, selon des méthodes que nous ne détaillerons pas ici. Il suffit de vérifier l'homogénéité. Sous SPSS par exemple, si le test de Levene est significatif, on prendra alors la valeur de p calculée pour les variances non homogènes.

A. Calculer la valeur de t

A.1. Pour les pressés : "En bref"

Liens de pratique avec un logiciel de statistiques : Voir ici des vidéos et textes pratiques

Soient deux échantillons réels, respectivement d'effectifs, moyennes et écarts-types n₁ , m₁, s₁ , et n₂ , m₂ , s₂ .

On commence par calculer l'erreur standard ES_v de l'échantillon virtuel constitué par les deux échantillons indépendants :

Et ensuite le t est donné par la formule

On présente le résultat en écrivant t(ddl)=n.nn (pour la présentation de la valeur p , voir l'article général sur la norme APA de présentation d'une valeur p).

A.2. Pour ceux qui aiment comprendre : D'où cela vient-il ?

Dans le test du t de Student, la statistique calculée est précisément la valeur t. Dans le cas de la comparaison de deux échantillons indépendants, voyons quelle formule employer. Commençons par rappeler la formule générale du t :

Soient m_v la moyenne d'un échantillon virtuel de taille n_v et ES_v son erreur-standard, on a

Ici notre échantillon virtuel est composé des deux échantillons indépendants réels. Sa moyenne est m_v = (m₁ - m₂) où m₁ et m₂ sont les moyennes des deux échantillons réels.

Le calcul de ES_v l'erreur standard de l'échantillon virtuel est moins naturel. En effet, ces deux échantillons étant indépendants, ils renvoient à des effectifs de taille potentiellement différentes et l'erreur standard de deux échantillons de tailles différentes ne s'obtient malheureusement pas en faisant simplement la moyenne des erreurs-standards. L'écart-type de l'échantillon virtuel issu de deux échantillons de tailles n₁ et n₂, de moyennes m₁ et m₂, et d'écarts-types s₁ et s₂peut s'obtenir de la façon suivante :

On produit alors l'ES standard de l'échantillon virtuel par la formule

Finalement, il ne reste plus qu'à calculer t :

B. Comment obtenir la valeur p associée ?

Il nous faut connaître la valeur t et le ddl nombre de degrés de libertés.

Si elle n'est pas directement donnée par votre logiciel de statistique, la valeur p associée s'obtient

soit en regardant dans une table du t de Student en prenant comme entrée la valeur du t ainsi calculée et comme nombre de degrés de libertés la valeur n-1 où n est le nombre de mesures.
Soit au moyen d'une formule de tableur sous Microsoft Office Excel ou OpenOffice Calc : "=LOI.STUDENT.BILATERALE( t ; ddl )"

Par défaut, on travaillera en bilatéral et on se contentera de la valeur p précédemment obtenue.

Si toutefois on dispose d'une hypothèse orientée et que les statistiques descriptives vont dans le sens attendu (typiquement, on s'attend à ce que m₁ > m₂ et c'est le cas au niveau descriptif, ou bien on s'attend à ce que m₁ < m₂ et c'est le cas au niveau descriptif), alors on peut travailler en unilatéral : il suffit alors de prendre la valeur p précédemment obtenue et de la diviser par 2 avant de décider si le test est significatif ou non.

C. Un exemple

Supposons que l'on ait une hypothèse théorique (fictive) selon laquelle les premiers astronautes envoyés devraient avoir plus de 38 ans en moyenne, mais que ceux envoyés après une certaine date sont plus jeunes. Imaginons que la seule information dont nous disposions est l'âge des astronautes au moment de leur sortie sur notre satellite, et supposons encore que 6 de ces astronautes appartiennent au premier groupe, et les 6 autres au deuxième groupe. Nous obtenons le tableau suivant :

Individu	Groupe	Age
1	1	32
2	1	38
3	1	36
4	1	37
5	1	42
6	1	26
7	2	39
8	2	35
9	2	33
10	2	34
11	2	37
12	2	36

À partir de ce tableau, il est facile de calculer la moyenne et l'écart-type des âges pour chacun des deux groupes, soit

et

Attention au fait que dans ce cas, le tableau représente un échantillon de la population totale des astronautes et l'on utilise la formule de l'écart-type pour échantillon (on divise par n -1) et non de l'écart-type pour population (où l'on divise par n).

L'écart-type de l'échantillon virtuel issu de deux échantillons de tailles n₁ et n₂, de moyennes m₁ et m₂, et d'écarts-types s₁ et s₂ peut s'obtenir de la façon suivante :

Il ne reste alors qu'à produire l'ES de l'échantillon virtuel par la formule

Finalement, il ne reste plus qu'à calculer t :

Ensuite sous Excel par exemple, en appliquant la formule =LOI.STUDENT.BILATERALE(t ; ddl)" avec le t que l'on vient de calculer et ddl=6+6-2=10 degrés de libertés, on trouve p =0.48255927.

Pour un test du t , la question suivante à se poser concernerait le caractère bilatéral ou non du test. Ici, de toute façon, même si on divisait par deux la valeur de p, on serait encore très largement au dessus du seuil de signification, donc ce n'est pas la peine d'aller plus loin : le test n'est pas significatif et l'on ne peut pas conclure qu'il existe une différence entre les groupes.

On pourra rapporter le résultat en disant que "t(10)=0.73, ns" (norme APA 6^e édition), ou mieux en rapportant la valeur p arrondie à deux ou trois décimales (norme APA 7^e édition).

1. Il faut soit avoir deux échantillons de données recueillies sur deux groupes de sujets différents.
2. Les données devraient idéalement être normalement distribuées. Cliquez ici pour voir comment tester la normalité de la distribution.
3. Les variances des échantillons réels devraient idéalement être homogènes. Sous SPSS ou Statistica par exemple, le "test de Levene" ne doit pas être significatif. Il est alors souhaitable d'utiliser la variante dite "test de Welch", qui est disponible dans jamovi et est même le test de Student par défaut dans R.

2.4. Comparer deux échantillons appariés.

L'hypothèse nulle est ici la suivante : m ₁ =m ₂ . Ou encore, ce qui revient au même, m ₁ -m ₂ =0. Par exemple, si l'on a fait une comparaison avant-après, en faisant la différence des deux valeurs obtenues pour chaque sujet, on obtient une nouvelle variable qu'il suffit de comparer, par un test à un échantillon vu précédemment, contre la valeur de référence 0. On pourra ensuite interpréter la différence en termes de progression : si la moyenne est significativement supérieure à 0 il y aura eu augmentation, si la moyenne est significativement inférieure à 0 il y aura eu diminution. Enfin, si la différence n'est ni significativement supérieure ni significativement inférieure à zéro, on ne peut pas dire qu'il y a un effet avant-après.

Préalables spécifiques de cette version du test de Student :

1. Il faut avoir deux échantillons d'un même type de mesure (par exemple, un temps de réponse dans les deux cas) recueillis à raison de deux données par individu statistique et sur lesquelles on peut procéder à une différence.

2. Les données de l'échantillon devraient idéalement être normalement distribuées. Cliquez ici pour accéder à l'article expliquant comment vérifier si cette condition est réalisée.