Statistique : comparer des moyennes

Cette grande leçon introduit les principales stratégies permettant de comparer des moyennes par rapport à une valeur de référence ou des moyennes entre elles. Le test de student est étudié en détail, ainsi que l'ANOVA à un facteur. On introduit les concepts de comparaisons planifiées et tests-post-hoc.

4. Introduction aux comparaisons planifiées dans une ANOVA

4.2. Le problème du contrôle de l'erreur d'ensemble

Le nombre de comparaisons qu'il est possible de faire dépend de façon cruciale du nombre initial de groupes dans le facteur. Or, le nombre de comparaisons possibles augmente extrêmement vite avec le nombre initial de groupes dans le facteur.

En quoi est-ce un problème ? Tout simplement parce que l'on se donne conventionnellement une valeur seuil pour considérer qu'un test est significatif. Cette valeur seuil, habituellement 5%, signifie que dans 95% des cas on aura raison de conserver l'hypothèse nulle. Mais elle signifie aussi que dans 5% des cas où l'hypothèse nulle est vraie (ce que l'on ignore justement), on risque d'admettre une différence de moyennes comme significative alors qu'en fait l'écart n'était dû qu'au hasard. Si nous faisons cent tests dans un cas où l'hypothèse nulle est vraie, cinq de ces tests pourraient quand même suggérer que l'hypothèse nulle est fausse.

Or nous venons de voir que le nombre de comparaisons qu'il est possible de faire à partir des modalités d'un facteur expérimental croît très vite avec le nombre de ces modalités. Si donc nous gardons notre seuil de 5%, il suffit de faire toutes les comparaisons possibles, et nous aurons de bonnes chances d'en trouver de significatives par pur hasard. Si l'on ne prend garde à ce biais, les tests ne nous auront rien appris puisque c'est par pur hasard qu'ils auront été significatifs... alors que les procédures statistiques sont au départ justement conçues pour nous prémunir contre le risque d'avoir un résultat par hasard !

 Il s'ensuit que les comparaisons internes aux groupes du facteur requièrent deux modifications par rapport aux comparaisons de moyennes vues jusqu'ici :

  • On ne peut se contenter de calculer le taux d'erreur d'une comparaison individuelle comme si elle était seule, il faut minimiser le taux d'erreur de l'ensemble.
  • On doit pouvoir agréger des ensembles de données avant de faire les calculs.  

2.1. Passer du taux d'erreur d'une comparaison unique au taux d'erreur de l'ensemble des comparaisons

La procédure statistique standard suppose qu'on se donne arbitrairement un seuil d'acceptabilité du risque. Généralement on prend un seuil conventionnel, le plus souvent 5%, moins souvent 1%. Si la valeur p calculée à partir de nos données est inférieure à ce seuil, on juge acceptable le pari que l'hypothèse nulle est fausse. Il s'agit néanmoins toujours d'un pari et l'on peut perdre ! En fait, on dispose même d'une estimation de la probabilité de perdre : c'est précisément la valeur p !

Nous avons vu dans l'article précédent, que lorsque nous testons l'effet de facteurs présentant plus de deux groupes, le nombre de comparaisons qu'il est possible de faire entre les modalités de ces groupes peut être grand, en fonction du nombre de groupes opérationnalisant le facteur.

Admettons que nous prenions comme seuil d'acceptabilité la valeur classique de 5%. Pour chaque comparaison individuelle, nous admettions un risque de 5%. Mais puisqu'il y a de nombreuses comparaisons possibles, ces risques se cumulent et finalement, si nous avons de très nombreuses comparaisons, il devient presque certain que nous allons commettre au moins une erreur de type I alors même que pour chaque comparaison nous admettons un seuil de 5% seulement !

Nous allons donc, dans la suite de nos raisonnements, distinguer entre le taux d'erreur d'une comparaison individuelle et le taux d'erreur d'un ensemble de comparaisons. La probabilité de commettre au moins une erreur de type I dans un ensemble de comparaisons est appelée " Taux d'erreur de l'ensemble ". Si l'on est dans un cadre expérimental, on pourra aussi trouver l'expression "Taux d'erreur de l'expérience".

Idéalement, si l'on procède à plusieurs comparaisons, on veut que le taux d'erreur de l'ensemble des comparaisons reste en dessous de la barre des 5%. Chaque valeur p reste associée à une comparaison individuelle. Et l'on doit donc utiliser des procédures particulières pour maintenir le taux d'erreur de l'ensemble à un niveau suffisant pour corriger l'inflation du risque induite par la multiplication des comparaisons.


2.2. On doit pouvoir agréger des ensembles des données avant les calculs

Les procédures que nous avons étudiées jusqu'ici permettent de comparer soit deux groupes l'un avec l'autre, soit un ensemble de k groupes pris en bloc :

  • Le test t nous permet de calculer le risque p pris en rejetant l'hypothèse nulle que m1 = m2 ,
  • L'ANOVA, plus générale, nous permet de calculer le risque p pris en rejetant l'hypothèse nulle "omnibus" que  m1 = m2 =... = mk-1 = mk .

Mais dans les comparaisons planifiées, en fonction de nos hypothèses théoriques, nous pouvons être amenés à opposer les sujets de deux groupes d'un côté, contre les sujets de trois autre groupes de l'autre. Par exemple, en étudiant le diagnostic médical, on compare trois groupes d'internes en médecine de spécialités différentes, contre deux groupes de médecins expérimentés, par exemple des pneumologues et des cardiologues. Ce n'est ni une comparaison à deux groupes, ni une comparaison globale. Que faire dans ce cas ? On aura donc envie de pouvoir regrouper les données des trois groupes d'un côté, des deux groupes de l'autre, puis de procéder à une comparaison de ces deux nouveaux ensembles. C'est ce que l'on appelle, "réaliser un contraste ".

Dans les pages et les articles suivant(e)s, nous allons étudier comment obtenir une valeur p pour les comparaisons individuelles telle que le taux d'erreur de l'ensemble sera maintenu à un niveau acceptable.