Statistique : comparer des moyennes

Cette grande leçon introduit les principales stratégies permettant de comparer des moyennes par rapport à une valeur de référence ou des moyennes entre elles. Le test de student est étudié en détail, ainsi que l'ANOVA à un facteur. On introduit les concepts de comparaisons planifiées et tests-post-hoc.

3. Comparer plus de deux moyennes : L'ANOVA à un facteur

3.2. Philosophie de l'ANOVA à un facteur

Inventée au début du XX e siècle par Ronald Fisher, pour résoudre des problèmes de... rendements agricoles, l'analyse de variance (ou ANOVA pour ANalysis Of VAriance) a initialement été conçue pour traiter le problème de la prédiction et de l’explication des variations que l’on constate dans les données expérimentales. Dans le cas de Fisher, il ne s’agissait pas de variations humaines, mais de la quantité récoltée dans des champs expérimentaux où l’on testait diverses méthodes agricoles. Avant Fisher, on savait construire des expériences, comme en physique, mais on ne savait pas comment faire pour traiter statistiquement le problème de la variabilité.  


Les types de variations  

L’ANOVA distingue plusieurs types de variations :

Les variations systématiques inter-groupes, c’est-à-dire liées à l’effet d’un facteur commun à un groupe d’observations (par exemple, l’effet du divorce sur la réussite scolaire des enfants : on compare des enfants de parents divorcés vs. non divorcés).

Les variations systématiques intra-groupes , spécifiques aux individus sur lesquels on a fait les mesures (par exemple, parmi le groupe des enfants de parents divorcés certains sont plus travailleurs que d'autres) mais sans rapport avec la répartition des individus dans les différents groupes. 

Pour être complets, dans le cas des analyses "à mesures répétées", que nous ne voyons pas ici, il faudrait aussi ajouter les variations systématiques intra-individuelles, c’est-à-dire qui surviennent pour un même individu sur lequel on procède à plusieurs mesures. 

Les variations aléatoires (erreurs de mesure, aléas dans les autres éléments qui déterminent la quantité mesurée, etc.).

Du point de vue expérimental (et statistique), les variations aléatoires sont une gêne que l’on peut réduire en faisant la moyenne de nombreuses observations. Pour des explications plus détaillées sur les types de variations et leurs significations, consulter les différents articles consacrés à ce sujet dans le cours de L1


ANOVA et recherche de causalités

L’ANOVA est une méthode de comparaison de moyennes qui suppose qu'il existe peut-être un lien entre une cause et un effet. De façon générale, on sait que s’il existe un lien entre une cause hypothétique et un effet, alors quand la cause varie, l’effet doit varier aussi. L’ANOVA va donc examiner les variations pour vérifier s’il est plausible d’attribuer les variations observées d’un effet (e.g. la plus ou moins bonne réussite scolaire) aux variations d’une cause hypothétique (e,g, le divorce ou non des parents).

  • La variable qui mesure les variations de la cause est appelée Variable Indépendante (VI) ou Facteur. Moyen mnémotechnique : on l'appelle "Indépendante" car la cause ne dépend pas de l'effet. 
  • La variable qui mesure les variations de l'effet est appelée Variable Dépendante (VD). Moyen mnémotechnique : cette variable est dite « dépendante » car l'effet dépend de la cause.  


Dans l’ANOVA, les variations pertinentes de la cause sont représentées par les différences entre les modalités de la VI, donc par le fait pour un sujet d’appartenir à tel ou tel groupe ; p our l’effet, les variations pertinentes sont celles de la VD. À partir de là,

  • L’hypothèse de relation causale, dans l’ANOVA, est que si l’on compare les sujets de groupes différents, la moyenne observée de la VD sera différente selon les différents groupes. Ainsi, par exemple, suivant que des individus ont bénéficié ou non d’une thérapie cognitive (variation de la cause), leur degré de phobie s’est réduit pas du tout, un peu, ou beaucoup (variation de l’effet).
  • L’hypothèse nulle pour l’ANOVA est que les différences observées entre les moyennes des différents groupes quant à la VD seront si petites qu’elles pourront s’expliquer facilement par le hasard. Par exemple, si l’on compare le niveau de réussite professionnelle d’individus de signes astrologiques différents, on devrait trouver que les différences de signes astrologiques n’expliquent pas mieux les revenus que ne le ferait le hasard (on ne peut pas rejeter l’hypothèse nulle).

Bien sûr, pour comprendre réellement l'ANOVA, il faut en comprendre la mécanique. Il s'agit donc de comprendre comment sont réparties les sources de variation. 


Décomposition des sources de variations

Du point du vue de la statistique en général, les principales sources de variation sont les variations aléatoires et systématiques. Mais du point de vue de l’ANOVA, il faut approfondir l’analyse des variations systématiques, en distinguant celles qui sont dues au facteur étudié (donc des variations inter-groupes) et celles qui sont dues à autre chose. À cet égard, les variations purement aléatoires, et les variations systématiques intra-groupes seront donc traitées statistiquement de la même façon car toutes renvoient à autre chose qu'au facteur étudié.

Dans l’ANOVA, on considère que les variations se traduisent par une grandeur mathématique, la variance. L’idée globale est alors que si le facteur a vraiment un effet, la part des variations qu’on peut lui attribuer sera significativement plus élevée que la part des variations qu’on ne peut pas lui attribuer. Autrement dit, on va décomposer la somme globale des variations (qui sera évaluée par la variance totale) en

  • une partie attribuable au facteur (qui sera évaluée par la variance inter-groupe) et
  • une partie attribuable à autre chose (qui sera évaluée par la variance intra-groupes).

C'est le rapport des deux qui permettra ensuite l'inférence statistique :si la variance inter-groupe est grande devant la variance intra-groupe,c'est probablement que l'hypothèse nulle est fausse car l'effet du facteur est massif, si au contraire la variance inter-groupe est petite devant la variance intra-groupes, c'est que les fluctuations imprévues expliquent mieux les données et l'hypothèse nulle devient difficile à rejeter.

On voit donc que toute la méthode va consister à répartir les variations entre leurs différentes sources de façon à pouvoir calculer ce rapport des deux variances, celle expliquée et celle non expliquée. D’où le nom global de la méthode : Analyse de la Variance.