Statistique : Tester l'association de variables

Cette grande leçon présente, sous l'angle de la statistique inférentielle, les principales méthodes pour tester l'existence d'une association entre variables : corrélations de variables numériques (r de Pearson) ordinales (\rho de Spearman, \tau de Kendal), ou nominales (\chi^2 et \phi). Après un rappel de la régression linéaire simple, on introduit la corrélation partielle. Finalement, cinq articles sont consacrés à la corrélation multiple.

4. Régression linéaire multiple : coefficients multidimensionnels

4.1. Ajustement multilinéaire d'un nuage de points

1.1. Nuage de points multidimensionnel

Lorsque nous voulons régresser une VD sur k prédicteurs, nous ne cherchons plus seulement à modéliser un nuage de points dans un plan (2 dimensions) mais plus généralement dans un espace à k dimensions. Par exemple, si nous ajoutons un nouveau prédicteur à la régression des articles précédents, F11VN, nous cherchons en fait à modéliser un nuage de points dans un espace à trois dimensions :


1.2. Ajustement multilinéaire

Le fait d’être dans un espace à k dimensions ne change pratiquement rien au fond des concepts vus plus haut. Ainsi, imaginons un espace à 3 dimensions, c'est-à-dire où chaque point est défini par sa valeur sur chacune des trois variables X0 , X1 et Y , l’équation de la droite qui s'ajustera le mieux au nuage de points dans cet espace s’écrira

Y = b0 b1 X1 + b2 X2

Nous n’avons plus une « droite de régression » mais un « plan de régression » :

Ou encore plus généralement, dans un espace à k dimensions, nous avons un « hyperplan de régression » :

Y b0 + b1 X1 + b2 X2 + … + bk Xk

Cela devient franchement difficile à se représenter mentalement, mais cela n’a en pratique qu’une importance mineure, car les principes restent les mêmes.