Statistique descriptive

Cette troisième grande leçon présente l'ensemble des concepts de base nécessaires à la description quantifiée d'observations. Elle constitue le vrai cœur de l'enseignement de la Statistique en L1 et l'étudiant y retrouvera exposés les principaux concepts qu'il aura vus dans ses cours. Toutefois, nous n'aborderons pas ici les aspects analytiques de l'inférence statistique, c'est-à-dire les concepts et méthodes permettant d'évaluer la fiabilité des résultats descriptifs et pour lequel nous renvoyons l'étudiant au cours de L2.

Rédaction : Éric Raufaste

1. introduction de la leçon

1.2. Statistique descriptive

Définition

Le premier souci de la démarche scientifique est de décrire la réalité, afin de pouvoir ensuite l'expliquer. L'élaboration des descriptions de la réalité s'appuie toujours sur l'utilisation d'un langage, souvent le langage naturel pour les sciences débutantes. Mais le plus souvent, au fur et à mesure qu'une science progresse, elle se dote d'un langage formel spécifique capable de décrire les concepts qu'elle emploie et leur articulation. Les mathématiques constituent bien sûr un tel langage, mais ce n'est pas le seul. Les chimistes ont créé leur propre langage par exemple. Il peut aussi s'agir de langages informatiques. C'est ainsi que la psychologie scientifique moderne s'appuie de plus en plus sur des descriptions mathématiques ou computationnelles des objets qu'elle se propose d'expliquer.

Lorsque la réalité à décrire porte sur des aspects quantifiables, la statistique descriptive fournit un arsenal conceptuel et des méthodes de calcul appropriées aux descriptions des réalités psychologiques. La statistique descriptive est donc avant tout une méthode permettant de construire des représentations de la réalité sur lesquelles pourront ensuite s'appliquer les opérations mathématiques permettant de manipuler ces représentations. Par exemple, si je m'intéresse au niveau en statistiques d'un groupe d'étudiants de L1, afin de déterminer quel type de cours serait le plus approprié, je peux leur faire passer une épreuve individuelle et calculer ensuite la moyenne générale du groupe. Cette moyenne générale est une statistique descriptive au sens où elle décrit une propriété du groupe d'individus considéré, en l'occurrence le niveau global du groupe.

Nous définirons ici la Statistique descriptive comme

la science de la  représentation de la réalité empirique au moyen de nombres, ainsi que les méthodes engendrées par cette science.

Dans ce cours, nous considérerons plusieurs façons de représenter numériquement la réalité, ainsi que différentes façons de construire des représentations graphiques pertinentes.

Remarque importante : nous définissons ici la Statistique descriptive comme une science... ET comme un ensemble de méthodes. Cela risque de choquer les statisticiens chercheurs pour qui il s'agit véritablement d'une science. Mais notre propos est plus modeste que celui de contribuer à une science. Nous n'entendons pas enseigner la statistique descriptive en tant que science, mais en tant méthode. Nous nous limitons donc à chercher à en faire comprendre l'utilisation par ses utilisateurs potentiels, à savoir les étudiants en sciences humaines. À cette fin, il est plus utile d'envisager la statistique descriptive comme un art, au même titre que la médecine ou la psychologie du praticien sont des arts, alors que la médecine ou la psychologie du chercheur sont des sciences. Les chercheurs développent les connaissances générales du domaine, la science proprement dite, alors que les seconds confrontent les connaissances générales produites par les premiers à la réalité empirique, à des cas concrets qui se laissent plus ou moins facilement réduire aux inévitables simplifications du réel que représente la science.


Mais... à quoi cela sert-il ?

Pour un humain, il est utile de se représenter la réalité. En effet, cette représentation lui permet d'anticiper dans une certaine mesure le comportement de la réalité, ainsi que les transformations de la réalité qui seront induites par les actions physiques sur cette réalité. La représentation statistique vise exactement les mêmes buts car elle n'est que l'une des nombreuses formes de représentation possibles du réel.

Alors pourquoi s'embêter à passer par des nombres qui sont, c'est le moins qu'on puisse dire, assez peu intuitifs pour le commun des mortels ? Pour une raison très simple : les nombres ont des propriétés combinatoires connues de sorte qu'une fois la réalité exprimée avec des nombres, les transformations mathématiques que j'appliquerai sur cette représentation devraient continuer à traduire la réalité empirique que je cherche à décrire. Par exemple, si je mets quatre pommes dans un sac vide, et qu'ensuite je me retrouve avec 7 amis, je sais directement, sans manipuler physiquement les pommes, qu'il me faudra couper toutes les pommes en deux pour donner à chacun la même quantité. Je le sais parce que 4 divisé par 8 = 1/2 et que je sais que pour obtenir une demi-pomme, il suffit de la couper en deux. Certaines opérations réalisées avec les nombres sont très puissantes car elles permettent de décrire de façon simple des réalités très complexes, beaucoup trop complexes pour qu'on puisse les gérer mentalement. Par exemple, la psychologie cognitive nous enseigne qu'il est impossible de considérer mentalement plus de quelques élément indépendants à la fois. Or, si mon problème est d'évaluer la santé mentale d'une population, ce sont des millions d'individus qu'il faut pouvoir considérer simultanément. Il n'y a donc aucun espoir de traiter une telle question sans disposer de moyens puissants permettant de résumer les informations recueillies auprès de chacun des individus de la population. C'est justement ce genre de résumés que nous permettent les opérations sur les nombres.