6. Variabilité et distributions

6.2. Paramètres et statistiques

Bien entendu, il est peu probable qu'on se lance jamais dans l'enquête prise précédemment en exemple, car celle-ci aurait un coût exorbitant. Ce coût serait d'autant plus difficile à justifier que, même en admettant qu'on ait besoin de connaître les tailles des français avec précision, on peut imaginer que si on prend un échantillon bien choisi de français, c'est-à-dire un échantillon choisi pour être représentatif de l'ensemble de la population française, alors la moyenne observée sur l'échantillon serait très proche de la moyenne réelle. De sorte que le gain de précision qu'on pourrait espérer en mesurant vraiment toute la population cible ne pourrait jamais compenser le coût exorbitant d'une telle étude. C'est effectivement la stratégie que chercheurs comme industriels utilisent dans la quasi-totalité des cas : recueillir des données sur un échantillon bien choisi d'individus et en inférer les propriétés de la population cible. C'est précisément l'objet de la statistique que de fournir des informations sur les populations à partir des données d'échantillons extraits de ces populations .


Définitions  

Considérons maintenant la définition suivante, discutable à plusieurs égards, mais qui va nous servir de point de départ :

« Une mesure, comme le score moyen d’autosatisfaction, qui se réfère à l’ensemble d’une population est appelée paramètre . Cette même mesure est appelée statistique lorsqu’elle est calculée à partir d’un échantillon de données que nous avons rassemblées. Les paramètres sont des entités réelles d’intérêt tandis que les statistiques correspondantes sont en fait des suppositions  »
                        David Howell (2008, p. 5).

Laissons pour le moment de côté la question de savoir si un score d'auto-satisfaction est vraiment une mesure pour nous concentrer sur la distinction entre les concepts de paramètre et de statistique, extrêmement importante à comprendre. En effet, à première vue, on pourrait croire que les seules informations « réelles » sont celles recueillies sur l'échantillon, tandis que celles portant sur la population ne sont qu'inférées à partir des données de l'échantillon. Nous pourrions donc être tentés de considérer les statistiques comme réelles et le paramètre comme hypothétique. Pour lever cette difficulté, il faut adopter un point de vue différent, développé au début du XX^e siècle par Karl Pearson (image ci-contre). Pour Pearson, le paramètre, terme dont l'étymologie renvoie au grec pour « à côté de la mesure », est réel et digne d'intérêt parce que, du point de vue de la recherche, c'est sur lui qu'on veut apprendre quelque chose. Du point de vue scientifique, il n'est a priori intéressant d'apprendre des choses sur un échantillon particulier que dans la mesure où ces choses nous renseignent sur l'ensemble de la population qu'on veut étudier. Il ne serait pas intéressant de savoir que telle expérience a donné tel résultat si en même temps elle ne nous apprenait pas quelque connaissance générale sur le monde. C'est donc bel et bien le paramètre, qui n'est pas la mesure, mais qui est estimé grâce à elle, qui est « d'intérêt », pour reprendre l'expression de Howell.

Ce qui paraît curieux dans la définition vue plus haut, c'est l'affirmation que la statistique est une supposition. En effet, on pourrait penser que c'est finalement la seule donnée un peu solide dont nous disposons. Au moins elle renseigne sur quelque chose qui a été effectivement observé. En fait, Pearson a proposé de renverser ce point de vue et de considérer que ce qui est réel ce sont les fonctions mathématiques qui servent à décrire comment se répartissent les observations. Si vous vous rappelez le schéma vu dans l'article d'introduction, vous n'aurez aucun mal à voir qu'il s'agit là d'une position qui distingue des croyances que l'on pourrait qualifier de « vraies » et des croyances plus ou moins trompeuses. Dans cette optique, les observations réalisées ne sont que des expériences fortement dépendantes de petits événements aléatoires et ne sont donc pas réelles, mais seulement des valeurs plus ou moins trompeuses. Soit. Mais...


Le paramètre est-il réel ?

C'est généralement ce que l'on suppose. Ainsi, on peut s'interroger sur la taille moyenne de la population française. Cette taille moyenne est un paramètre et elle existe indubitablement dans l'univers mathématique. La question devient alors celle de la réalité de l'univers mathématique. Il s'agit là d'une position philosophique discutable et discutée, même chez les mathématiciens. Sans nécessairement aller jusqu'à une position extrême comme le rationalisme de Platon, certains mathématiciens dits spiritualistes considèrent que l'univers mathématique possède une réalité intrinsèque que le chercheur ne fait que découvrir. D'autres ont une position plus constructiviste et considèrent que les mathématiques ne sont qu'une construction de l'esprit humain.

Quoi qu'il en soit au plan philosophique, ne nous y trompons pas : la valeur exacte d'un paramètre décrivant une population nous est généralement inconnue, quand elle n'est pas franchement inconnaissable. On ne peut généralement en obtenir qu'une approximation, et c'est précisément ce à quoi sert la statistique calculée à partir des données recueillies sur l'échantillon : nous fournir une estimation de la valeur du paramètre.

Dans le cadre de la présente leçon d'introduction, nous restons au niveau des concepts très fondamentaux et nous ne rentrerons pas plus avant dans la description des distributions. Ces points seront traités plus en détail dans la grande leçon intitulée Statistique descriptive.

Accessibility

Background Colour

Font Face

Font Size

1

Text Colour