Statistique : Tester l'association de variables

Cette grande leçon présente, sous l'angle de la statistique inférentielle, les principales méthodes pour tester l'existence d'une association entre variables : corrélations de variables numériques (r de Pearson) ordinales (\rho de Spearman, \tau de Kendal), ou nominales (\chi^2 et \phi). Après un rappel de la régression linéaire simple, on introduit la corrélation partielle. Finalement, cinq articles sont consacrés à la corrélation multiple.

2. Régression linéaire simple : approche inférentielle

2.4. Tableau d'ANOVA de la régression

d

Ce tableau d'ANOVA rend compte de l’analyse de la variance totale des données, en la partitionnant en une partie expliquée par le modèle (Régression) et une partie non expliquée (Résidu).

ddl  : nombre de degrés de liberté associés à la source de variance. Pour la régression, il est égal au nombre de prédicteurs (constante incluse) moins 1. Donc toujours 1 pour la régression d'une régression simple.

Somme des carrés  : Il s’agit de la somme des carrés des écarts à un point de référence Σ(yi -refi )². Au vu de la définition de la variance, on voit qu’une variance d'échantillon n’est qu’une somme des carrés divisée par le nombre d’observations qui la concernent, moins une, (voir l'article consacré à la somme des carrés dans l'article sur l'ANOVA).

Pour la ligne Total, la référence est constante, c’est la moyenne my du nuage de points.

Pour la ligne « Résidu », la référence est la valeur prédite par le modèle pour chaque observation.

Pour la ligne régression, la référence est la différence entre la valeur prédite parle modèle et la valeur moyenne my. La somme des carrés de la régression représente donc l’amélioration de prédiction qu’apporte le fait d’utiliser la valeur prédite par le modèle plutôt que la valeur moyenne de l'ensemble du nuage de points.

Accessoirement, on retrouve R ² en divisant la somme des carrés de la régression par la somme des carrés totale, ce qui est normal puisque R² est la part de variance expliquée par le modèle. 

Carré moyen  : Somme des carrés divisée par le nombre de degrés de liberté.

F  :  Statistique F de Fisher-Snedecor, obtenue en divisant le carré moyen de la régression par le carré moyen des résidus.

Signification : la valeur classique du p. Sans grand intérêt ici car quasiment toujours significatif dans ces analyses, notamment du fait que le modèle inclut une constante.