Statistique : Tester l'association de variables

Cette grande leçon présente, sous l'angle de la statistique inférentielle, les principales méthodes pour tester l'existence d'une association entre variables : corrélations de variables numériques (r de Pearson) ordinales (\rho de Spearman, \tau de Kendal), ou nominales (\chi^2 et \phi). Après un rappel de la régression linéaire simple, on introduit la corrélation partielle. Finalement, cinq articles sont consacrés à la corrélation multiple.

8. Régression linéaire : Évaluer la qualité de la relation

8.1. Introduction

Lorsque l’on fait de la modélisation (linéaire ou non), il est bien sûr intéressant d’examiner la qualité de la relation entre les données et les valeurs prédites. Une approche positive consiste à examiner la corrélation entre valeurs observées de la VD et valeurs prédites. Une approche complémentaire consiste à examiner ce qui se passe quand le modèle ne donne pas des valeurs identiques aux valeurs prédites, c’est-à-dire à analyser les écarts entre valeurs prédites et valeurs observées, ce qu'on appelle les résidus.

Fondamentalement, l’analyse des résidus en modélisation linéaire consiste à évaluer comment les résidus sont distribués en fonction des valeurs prédites de la variable dépendante. Les résidus d’un bon modèle présentent diverses propriétés : normalité, linéarité, homoscédasticité, et indépendance. Nous allons maintenant les définir d’un point de vue théorique.

Pour diagnostiquer les diverses anomalies des résidus, les logiciels de statistiques proposent divers outils que nous allons examiner dans les pages suivantes.