Statistique descriptive

Cette troisième grande leçon présente l'ensemble des concepts de base nécessaires à la description quantifiée d'observations. Elle constitue le vrai cœur de l'enseignement de la Statistique en L1 et l'étudiant y retrouvera exposés les principaux concepts qu'il aura vus dans ses cours. Toutefois, nous n'aborderons pas ici les aspects analytiques de l'inférence statistique, c'est-à-dire les concepts et méthodes permettant d'évaluer la fiabilité des résultats descriptifs et pour lequel nous renvoyons l'étudiant au cours de L2.

Rédaction : Éric Raufaste

7. Dépendances et causalité

7.3. Propriétés des relations de dépendance

Nous avons vu que l'observation de co-occurrences peut suggérer l'existence ou la présence de relations de dépendance. Puisque nous souhaitons être capables d'identifier de telles relations de dépendance, ou au contraire pouvoir affirmer l'indépendance, il nous faut savoir caractériser les relations auxquelles nous sommes confrontés. Pour cela, il nous faut commencer par développer trois propriétés fondamentales des relations : leur force, leur direction, et leur forme.


2.3. Force de la relation

Admettons que la relation que nous supposons entre âge et revenus existe vraiment. Si nous considérons un vrai échantillon, il est néanmoins très peu plausible que tous les individus plus âgés gagnent plus. Certains individus jeunes peuvent avoir de hauts revenus et inversement, certaines personnes plus âgées peuvent gagner peu. Nous ne pourrons donc pas constater la dépendance stricte. Inversement, puisque la relation est globalement vraie, les personnes vont avoir tendance à gagner plus avec l'avancée en âge et donc, je n'aurai pas exactement la même distribution de revenus selon les tranches d'âges. Donc pas d'indépendance stricte non plus.

Nous pouvons alors généraliser un peu les concepts précédents et remplacer l'alternative entre indépendance totale et dépendance totale par quelque chose de plus nuancé : la notion de force de la relation, qui est en fait la force de la dépendance.

La question qui se pose alors est de produire un index, une valeur, qui nous permette de mesurer la force des relations. Il en existe plusieurs, selon le type de variables à mettre en relation, nous les verrons plus loin.


2.3. La forme de la relation

La forme de la relation est une propriété complexe que l'on peut décomposer en plusieurs sous-propriétés : direction, monotonie, linéarité, curvilinéarité, etc...


2.3.1. Le sens ou la direction de la relation

Dans l'exemple vu plus haut, plus l'âge augmente et plus les revenus augmentent. Si l'on traçait la courbe correspondant à une telle relation, elle serait vraisemblablement montante : les revenus seraient bas à gauche, vers les petits âges, et haute à droite, vers les âges plus avancés. On parlera alors d'une relation positive.

Bien évidemment, des relations peuvent être très fortes, mais dans le sens opposé. Par exemple, si l'on met en relation la catégorie socio-professionnelle et le chômage, on trouvera certainement une relation inverse : PLUS les individus appartiennent à une catégorie socio-professionnelle élevée, et MOINS ils tendent à être au chômage.

Il est clair que le sens de la relation est indépendant de la force : une relation peut être très forte et négative, très forte et négative, ou encore très faible et positive, ou très faible et négative.


2.3.2. La monotonie

La monotonie ou la non-monotonie d'une relation est le fait que la relation va toujours dans la même direction, c'est-à-dire toujours dans le sens positif ou toujours dans le sens négatif. C'était le cas pour la relation postulée plus haut, entre l'âge et le revenu. Mais il existe des relations non monotones. En psychologie par exemple, la loi de Yerkes-Dodson (1908) énonce ce fait bien attesté d'une non-monotonie entre le niveau de motivation et la performance : lorsque la motivation est très faible, la performance tend à être faible aussi. Au fur et à mesure que la motivation augmente, dans un premier temps, la performance tend à monter aussi (relation positive). Toutefois, cette monotonie est rompue lorsqu'un optimum de motivation est atteint. Au-delà de ce point, la motivation devient trop forte (comme lorsqu'un étudiant devient trop stressé par l'examen et se laisse perturber par ses émotions) et la performance commence à chuter de plus en plus avec l'augmentation de motivation, de façon monotone décroissante cette fois.


2.3.3. La linéarité : formes linéaires et non linéaires

Parmi les relations monotones, une forme de relation est particulièrement prisée, car elle se prête facilement aux traitements mathématiques et statistiques : la droite.

De façon intuitive, on dira qu'une relation est linéaire si elle ressemble à une droite. Plus formellement, une relation est linéaire lorsque tout accroissement sur une des deux variables s'accompagne d'un accroissement proportionnel (éventuellement négatif) sur l'autre variable. Les relations linéaires sont monotones.

Imaginez maintenant la courbe en U inversé qui caractérise la loi de Yerkes-Dodson vue plus haut. Elle ne peut évidemment pas se laisser décrire par une droite. On dira plutôt qu'elle est curvilinéaire, car elle décrit une courbe plutôt qu'une droite.

Il existe bien d'autres formes de courbes. Par exemple, la loi de Fechner vue plus haut décrit une courbe logarithmique. Les courbes d'apprentissages en psychologie suivent souvent une forme de fonction puissance, etc...


2.3. La symétrie

Cette dernière propriété est cruciale, car elle marque la distinction entre une dépendance mutuelle simple et la notion de causalité. En effet, si j'observe des co-occurrences rien ne me permet d'affirmer par ce seul fait la prééminence d'une variable sur l'autre. Par exemple, si j'observe que les gens heureux sont aussi en meilleure santé, sont-ils plus heureux parce qu'ils sont en meilleure santé ? Sont-ils en meilleure santé parce qu'ils sont plus heureux ? Le seul constat de la co-occurrence d'une bonne santé et du bonheur ne suffit pas à expliquer quoi que ce soit.

Dans certains cas, toutefois, cette prééminence existe de fait. Par exemple, puisque l'âge ne dépend que de la durée de vie, même si je constate une co-occurrence entre un âge élevé et un salaire élevé, il ne viendrait à personne d'affirmer que le salaire élevé cause l'âge. L'inverse au contraire peut être envisagé. Il y a donc, dans ce cas, dissymétrie entre les deux variables de la relation.

Un cas particulier d'asymétrie très important est utilisé par la méthode scientifique. Nous y reviendrons plus loin.