Statistique : Tester l'association de variables
Cette grande leçon présente, sous l'angle de la statistique inférentielle, les principales méthodes pour tester l'existence d'une association entre variables : corrélations de variables numériques (r de Pearson) ordinales ( de Spearman, de Kendal), ou nominales ( et ). Après un rappel de la régression linéaire simple, on introduit la corrélation partielle. Finalement, cinq articles sont consacrés à la corrélation multiple.
4. Régression linéaire multiple : coefficients multidimensionnels
4.1. Ajustement multilinéaire d'un nuage de points
1.1. Nuage de points multidimensionnel
Lorsque nous voulons régresser une VD sur k prédicteurs, nous ne cherchons plus seulement à modéliser un nuage de points dans un plan (2 dimensions) mais plus généralement dans un espace à k dimensions. Par exemple, si nous ajoutons un nouveau prédicteur à la régression des articles précédents, F11VN, nous cherchons en fait à modéliser un nuage de points dans un espace à trois dimensions :
1.2. Ajustement multilinéaire
Le fait d’être dans un espace à k dimensions ne change pratiquement rien au fond des concepts vus plus haut. Ainsi, imaginons un espace à 3 dimensions, c'est-à-dire où chaque point est défini par sa valeur sur chacune des trois variables X0 , X1 et Y , l’équation de la droite qui s'ajustera le mieux au nuage de points dans cet espace s’écrira
Y = b0 + b1 X1 + b2 X2
Nous n’avons plus une « droite de régression » mais un « plan de régression » :
Ou encore plus généralement, dans un espace à k dimensions, nous avons un « hyperplan de régression » :
Y = b0 + b1 X1 + b2 X2 + … + bk Xk
Cela devient franchement difficile à se représenter mentalement, mais cela n’a en pratique qu’une importance mineure, car les principes restent les mêmes.
Couleur de fond
Font Face
Taille de police
Couleur de texte