Statistique descriptive

Cette troisième grande leçon présente l'ensemble des concepts de base nécessaires à la description quantifiée d'observations. Elle constitue le vrai cœur de l'enseignement de la Statistique en L1 et l'étudiant y retrouvera exposés les principaux concepts qu'il aura vus dans ses cours. Toutefois, nous n'aborderons pas ici les aspects analytiques de l'inférence statistique, c'est-à-dire les concepts et méthodes permettant d'évaluer la fiabilité des résultats descriptifs et pour lequel nous renvoyons l'étudiant au cours de L2.

Rédaction : Éric Raufaste

8. Liaison entre deux variables

8.2. Limites de la covariance comme indicateur de liaison

Nous avons donc construit un indice de liaison, la covariance, qui possède une propriété intéressante, il est positif si les deux variables varient dans le même sens et négatif sinon. Autrement dit, la covariance nous donne la direction de la relation. Mais ce qui serait intéressant, ce serait de pouvoir disposer d'une évaluation de la force de la relation. Est-ce que la covariance est un bon indice pour cela ?


2.1. Un exemple numérique

Pour nous convaincre que non, prenons un exemple numérique, qui nous permettra au passage de vérifier notre compréhension des formules vues plus haut. Soient trois variables, X, Y, et Z, mesurées chacune sur les cinq mêmes individus :

X Y Z
1 2 4
2 3 6
3 4 8
4 5 10
5 6 12

leurs moyennes respectives sont 3, 4 et 8. En fait, les variables X et Y ne diffèrent que d'un point : toute mesure sur Y est égale à la mesure sur X augmentée de 1. De même, Y et Z ne différent que d'un facteur 2 : on obtient toute mesure de Z en doublant la mesure obtenue sur Y. X et Y d'un côté, X et Z de l'autre sont donc parfaitement liées.

Nous calculons alors, pour chacune des valeurs de chaque variable, l'écart à la moyenne de la variable :

X-m(X) Y-m(Y) Z-m(Z)
   -2    -2    -4
   -1    -1    -2
    0     0     0
    1
    1     2
    2     2    4

L'étape suivante est de calculer les produit des écarts à la moyenne pour X et Y d'un côté, X et Z de l'autre côté :

(X-m(X))*(Y-m(Y)) (X-m(X))*(Z-m(Z))
            4              8
            1              2
            0              0
            1              2
            4              8

Finalement, les deux covariances sont données en faisant la moyenne de chacune des deux colonnes, soit Cov(X, Y)=2  et Cov(X, Z)=4.

Comme ces deux valeurs sont très différentes l'une de l'autre (à part leur signe qui est le même, fort heureusement), nous pouvons donc voir que la covariance n'est pas un indice très utilisable pour rendre compte de la force de la covariation. C'est pourquoi nous allons nous tourner vers un raffinement de la covariance : la corrélation.