Statistique : comparer des moyennes

Cette grande leçon introduit les principales stratégies permettant de comparer des moyennes par rapport à une valeur de référence ou des moyennes entre elles. Le test de student est étudié en détail, ainsi que l'ANOVA à un facteur. On introduit les concepts de comparaisons planifiées et tests-post-hoc.

1. Principe général de la comparaison de moyennes

1.3. Que signifie comparer des moyennes ?

Comme il a été vu dans le cours de statistiques descriptives consacré à la moyenne, celle-ci est un indice de tendance centrale. Autrement dit, une moyenne représente fondamentalement le centre d'un ensemble de points, on dit souvent d'un "nuage" de points. La comparaison de moyennes peut donc se concevoir comme l'évaluation de la distance entre le centre d'un nuage de points (le "point moyen" de ce nuage) et une autre valeur prise en référence. Cette autre valeur peut être la moyenne d'un autre groupe, comme lorsque nous comparons les moyennes des tailles des individus d'un groupe d'hommes et d'un groupe de femmes. Ce peut aussi être une constante. Ainsi je peux vouloir prendre un groupe d'individus donnés, disons des enfants ayant été victime de la famine, et tester s'ils ont en tant que groupe un QI plus petit, plus grand, ou égale à la moyenne de la population globale. Celle-ci étant par construction égale à 100, je vais donc comparer le centre du nuage de points constitué par les mesures prises sur le groupe que j'étudie et rapporter cette valeur calculée à la valeur de référence de la population générale, 100.

Rappelons au passage que cette valeur calculée peut n'avoir aucune existence réelle. Ainsi, lorsque l'on calcule que le français moyen a 1,9 enfants, il est bien clair qu'il n'existe aucun français réel ayant véritablement 1,9 enfants !
 

Revenons à votre problème de départ, évaluer l'effet d'une thérapie. Arrivé là, vous disposez d'une stratégie pour avoir des estimations relativement fiables, pourvu que vous disposiez de suffisamment de participants pour vos mesures... Mais, avez-vous complètement résolu votre problème ?

En fait non. Tout d'abord, les participants ne sont pas en nombre infini. Ainsi, vos estimations ne fourniront jamais la vraie valeur, mais resteront toujours de simples estimations entachées d'un certain risque d'erreur. Dans la pratique, vous serez même généralement obligés de vous contenter d'un nombre très limité d'observations et donc non seulement vous n'aurez que des estimations, mais encore, il n'est pas sûr du tout que ces estimations soient bonnes !

Voilà qui nous amène au deuxième problème technique à résoudre : comment tenir compte du caractère nécessairement imparfait de vos échantillons ? C'est précisément là que la question de l'inférence statistique entre en jeu.