Statistique : comparer des moyennes

Cette grande leçon introduit les principales stratégies permettant de comparer des moyennes par rapport à une valeur de référence ou des moyennes entre elles. Le test de student est étudié en détail, ainsi que l'ANOVA à un facteur. On introduit les concepts de comparaisons planifiées et tests-post-hoc.

6. Comparaisons non planifiées : tests post-hoc

6.1. Notions de base sur les tests post-hoc

1.1    Pourquoi des tests a posteriori ?

Précédemment, nous avons examiné le cas des comparaisons planifiées. Mais lors de l’analyse des données, l’examen des résultats suscite des hypothèses réellement intéressantes à tester, mais auxquelles on n’avait pas pensé avant de voir les données. Traiter ces dernières comme des hypothèses a priori serait illégitime, car cela reviendrait à « capitaliser sur la chance ». À moins bien sûr de procéder d’abord à un nouveau recueil de données, de sorte que l’hypothèse ne provienne pas des données sur lesquelles on la teste ! Dans ce dernier cas, on peut tester l’hypothèse en question avec une comparaison planifiée sur le deuxième recueil de données, mais pas sur le premier).
Une autre situation fréquente est le besoin de tester de manière exploratoire toutes les possibilités de différences significatives entre groupes de données.


1.2    Ce que sont les tests post-hoc

Les tests post-hoc, ou « a posteriori » ne présupposent pas l’existence d’une hypothèse expérimentale préalablement définie.
Les procédures existantes sont nombreuses et les différents logiciels de statistique facilement accessibles aux psychologues (payants comme SPSS, Statistica, SAS, ou gratuits comme jamovi ou R), en proposent de nombreuses. Se pose la question du choix de la procédure à utiliser.


1.3    Le problème de la puissance statistique

On pourrait avoir envie de tester les différences de moyennes au sein de chaque paire possible d’échantillons avec des tests t, en appliquant la correction de Bonferroni. Après tout, cette dernière ne suppose pas d’avoir une hypothèse a priori et donc il n’existe pas d’objection formelle à son utilisation. Ce peut être un test post-hoc comme un autre. Mais on le réserve habituellement aux comparaisons planifiées, car ce test devient rapidement trop exigeant au fur et à mesure qu’augmente le nombre de comparaisons possibles.

La capacité d’un test à rejeter l’hypothèse lorsqu’elle est fausse est appelée la puissance statistique du test. En effet, admettons que l’hypothèse nulle soit fausse : pour une différence de moyennes donnée, et pour un certain niveau de bruit (la variance des échantillons), il faudra obligatoirement un certain nombre de sujets pour qu’un test devienne capable de détecter la différence significative. Certains tests sont peu puissants, d’autres sont plus puissants (requièrent moins de sujets). C’est pourquoi d’autres procédures ont été développées, les tests post-hoc. Ces procédures sont généralement plus « puissantes », c’est-à-dire plus facilement capables de détecter une différence significative. Ou pour le dire autrement, ces procédures requièrent moins d’observations pour qu’une même différence de moyenne atteigne le seuil de significativité.

En revanche, leur multiplicité ouvre la question du choix du test post-hoc à utiliser, et des critères que l’on peut se donner pour choisir.


1.4    Choisir un test « laxiste », « conservateur », ou entre les deux ?

Pour choisir parmi les procédures de test qui existent, le premier critère qui vient à l’esprit est celui de la puissance statistique. En effet, les différents tests ne sont pas équivalents à cet égard. Certains donneront plus facilement une valeur significative et seront qualifiés de laxistes. D’autres au contraire donneront difficilement un résultat significatif et seront qualifiés de plus « conservateurs ».
Il n’existe pas de règle stricte et consensuelle pour guider le choix dès lors que les conditions d’application de chaque test sont respectées.
C’est pourquoi mon conseil serait de vous appuyer sur ce que vous voulez montrer et choisir ce qui vous donnera l’argument le plus robuste.

  • Si vous voulez montrer qu’il existe une différence significative, alors pouvoir exhiber une différence significative obtenue malgré l’utilisation d’un test conservateur est plus convaincant pour les lecteurs.
  • Au contraire, vous souhaiterez parfois montrer que deux groupes ne sont pas différents. Légalement, on ne peut jamais affirmer une telle chose à moins d’utiliser des procédures spécifiques (méthodes bayésiennes comme l’inférence « fiducière » notamment) qui ne sont pas du niveau de ce cours. Affirmer que l’hypothèse nulle est vraie (qu’il n’y a pas de différence entre les groupes) revient à commettre une erreur de débutant, ce que dans le jargon des chercheurs on appelle parfois « conclure sur une hypothèse nulle ». Même si l’on ne peut pas affirmer formellement l’égalité, il est tout de même parfois appréciable de pouvoir montrer qu’à tout le moins on ne détecte pas de différence significative. Et votre argument sera alors plus convaincant si vous avez choisi un test laxiste puisqu’il était justement le plus à même de fournir une valeur significative. Surtout si vous avez pris soin d’avoir suffisamment de participants pour que le manque de significativité ne puisse pas être attribué à un trop faible effectif.


Nous allons maintenant brièvement examiner quelques tests présents dans les logiciels de statistique, en les classant du plus laxiste au plus conservateur. Nous présenterons d'abord les tests usuels de comparaisons par paires de moyennes, pour nous examinerons deux tests qui fonctionnement différemment, un test permettant d'examiner des contrastes (donc de comparer des agrégations de plusieurs moyennes) en post-hoc, et un test permettant de donner un statut particulier à un groupe censé être différent des autres (appelé groupe "contrôle" ou groupe "témoin").