Statistique : Tester l'association de variables

Cette grande leçon présente, sous l'angle de la statistique inférentielle, les principales méthodes pour tester l'existence d'une association entre variables : corrélations de variables numériques (r de Pearson) ordinales (\rho de Spearman, \tau de Kendal), ou nominales (\chi^2 et \phi). Après un rappel de la régression linéaire simple, on introduit la corrélation partielle. Finalement, cinq articles sont consacrés à la corrélation multiple.

2. Régression linéaire simple : approche inférentielle

2.5. Les coefficients de régression

Comme son nom l’indique, ce tableau donne les paramètres de la droite de régression.

Les coefficients non standardisés : Ce sont les valeurs brutes des constantes, appelés les «  B  ».

Par exemple, à partir du tableau ci-dessus, on voit que la droite de régression peut s’écrire :

           Y = .824* X – 3.622

Y représente la variable dépendante DVP et X représente la variable indépendante F02J.

Autrement dit, un accroissement d’une unité sur la VI se traduit par un accroissement de B unités sur la VD, sauf dans le cas de la ligne "constante" qui représente la valeur de la VD lorsque la VI est nulle.

Les coefficients standardisés : Valeurs standardisées des constantes, appelés les « Bêtas ».

Les coefficients standardisés expriment le coefficient de régression qu’il faut appliquer aux scores standardisés de la VI (les «  z scores » de la VI, c’est-à-dire les valeurs centrées réduites) pour prédire les z scores de la VD : Un bêta de 0.5 signifie qu’un accroissement d’un écart-type de la VI se traduit par un accroissement d’un demi écart-type de la VD. Nous en traiterons lorsque nous aborderons la régression multiple.

Erreur standard : sert à calculer la valeur de t en vue de tester si le coefficient (et donc la prédiction) est significativement différent de 0. L'erreur standard sert aussi à calculer des intervalles de confiance des coefficients (c'est-à-dire la probabilité que la "valeur vraie" du coefficient soit comprise dans un intervalle défini par la valeur B plus ou moins (le plus souvent) 2 erreurs standard.

t et signification : valeur du t de Student associé au coefficient et probabilité bilatérale d’obtenir une telle valeur de t si l’hypothèse nulle est vraie.

Sert à calculer si la valeur du coefficient est significativement différente de 0, c’est-à-dire si le prédicteur considéré est véritablement capable de prédire les variations de la variable dépendante. Pour plus de détails sur l'utilisation de la statistique t, voir l'article sur le test t.

Ici, il n’y a aucun problème à rejeter l’hypothèse nulle, c’est-à-dire à accepter que la variable F02J prédit de façon significative les variations de la variable dépendante.

À noter : lorsque l’on a une hypothèse théorique sur le sens de la prédiction, et que le signe de B est dans la direction théoriquement prévue, onpeut utiliser un test unilatéral, c’est-à-dire diviser la valeur affichée de p par 2 avant de considérer le rejet ou non de l’hypothèse nulle.