Statistique : Tester l'association de variables
Cette grande leçon présente, sous l'angle de la statistique inférentielle, les principales méthodes pour tester l'existence d'une association entre variables : corrélations de variables numériques (r
de Pearson) ordinales (
de Spearman,
de Kendal), ou nominales (
et
). Après un rappel de la régression linéaire simple, on introduit la corrélation partielle. Finalement, cinq articles sont consacrés à la corrélation multiple.
4. Régression linéaire multiple : coefficients multidimensionnels
4.1. Ajustement multilinéaire d'un nuage de points
1.1. Nuage de points multidimensionnel
Lorsque nous voulons régresser une VD sur k prédicteurs, nous ne cherchons plus seulement à modéliser un nuage de points dans un plan (2 dimensions) mais plus généralement dans un espace à k dimensions. Par exemple, si nous ajoutons un nouveau prédicteur à la régression des articles précédents, F11VN, nous cherchons en fait à modéliser un nuage de points dans un espace à trois dimensions :
1.2. Ajustement multilinéaire
Le fait d’être dans un espace à k dimensions ne change pratiquement rien au fond des concepts vus plus haut. Ainsi, imaginons un espace à 3 dimensions, c'est-à-dire où chaque point est défini par sa valeur sur chacune des trois variables X0 , X1 et Y , l’équation de la droite qui s'ajustera le mieux au nuage de points dans cet espace s’écrira
Y = b0 + b1 X1 + b2 X2
Nous n’avons plus une « droite de régression » mais un « plan de régression » :
Ou encore plus généralement, dans un espace à k dimensions, nous avons un « hyperplan de régression » :
Y = b0 + b1 X1 + b2 X2 + … + bk Xk
Cela devient franchement difficile à se représenter mentalement, mais cela n’a en pratique qu’une importance mineure, car les principes restent les mêmes.
Couleur de fond
Police
Taille de police
Couleur de texte
Crénage de la police
Visibilité de l’image
Espacement des lettres
Hauteur de ligne
Surbrillance de lien