Statistique : Tester l'association de variables

Cette grande leçon présente, sous l'angle de la statistique inférentielle, les principales méthodes pour tester l'existence d'une association entre variables : corrélations de variables numériques (r de Pearson) ordinales (\rho de Spearman, \tau de Kendal), ou nominales (\chi^2 et \phi). Après un rappel de la régression linéaire simple, on introduit la corrélation partielle. Finalement, cinq articles sont consacrés à la corrélation multiple.

7. Régression linéaire multiple : Ordre d'introduction des variables

7.9. Conclusion : Choix d’une méthode

La force de la méthode standard est que les contributions propres de chaque VI sont indiscutables et ses résultats sont stables. C’est pourquoi Tabachnick et Fidell la recommandent par défaut.L’inconvénient de cette méthode est les contributions des VIs sont souvent sous-estimées puisque seule la part de variance qu’elles sont seules à expliquer dans l’ensemble des VIs de référence leur est imputée. Cela a pour conséquence de réduire la valeur des bêtas, ce qui ensuite peut conduire à éliminer une variable comme non significativement contributive alors même que la corrélation de cette variable avec la VD peut être très forte.

L’intérêt de la méthode hiérarchique est le contrôle que le chercheur exerce sur l’introduction des variables, ce qui lui permet de tester des hypothèses théoriques ou de donner priorité à des variables dont on sait d’après la littérature qu’elles sont contributives.

Parmi les méthodes statistiques, la méthode pas à pas est généralement considérée comme celle conduisant aux résultats les plus fiables. Le reproche que l’on fait à cette procédure est qu’elle « capitalise sur la chance ». Le résultat est que l’équation de régression tend à modéliser l’échantillon plutôt que la population dont il est tiré (on décrit du bruit au lieu de modéliser le signal caché derrière le bruit). Pour cette raison, une validation croisée est recommandée : l’ensemble des données est partitionné en deux sous-fichiers par tirage aléatoire. Le premier sous-fichier sert à construire le modèle, le second fichier sert à tester si le modèle se généralise bien à des données externes à celles de l’échantillon qui ont servi à la construire.

Selon Tabachnick et Fidell (1996) :

_ La méthode standard répond à 2 questions :

(1) quelle est l’importance globale de la relation entre la VD et l’ensemble des VIs

(2) À quel degré chaque VI contribue-t-elle de façon unique à la VD ?

_ La méthode hiérarchique répond à la question :

(1) Est-ce que l’ajout d’une k ième VI dans le modèle augmente significativement la prédiction de la VD par rapport au modèle composé des k-1 VIs précédentes ?

_ La méthode statistique répond aux questions :

(1) Quelle est la combinaison linéaire de VIs qui prédit le mieux la VD dans l’échantillon testé ?