Statistique inférentielle et psychométrie appliquée

Cette grande leçon introduit la statistique inférentielle et la psychométrie appliquée, ceci dans la  perspective de permettre aux étudiants de comprendre les enjeux épistémologiques, scientifiques et techniques de ces matières. Ces enjeux comprennent en particulier la mise au point de méthodes objectives pour l’étude de la variabilité induite expérimentalement ou observée en condition naturelle.

Cette leçon est essentielle pour comprendre les suivantes, car tous les concepts de base de la statistique inférentielle y sont expliqués.

8. Population et échantillons

8.3. Faiblesses de l'échantillonnage

On s'en doute, le terme d'échantillonnage traduit l'opération par laquelle on extrait un échantillon d'individus de la population cible pour procéder à des mesures. Si l'échantillonnage était parfait, on ne prendrait aucun risque en extrapolant à la population les conclusions tirées sur l'échantillon. Mais voilà, un échantillon n'est JAMAIS parfait. Examinons quelques faiblesses de l'échantillonnage. 


3.1. Les biais d'échantillonnage

Les chercheurs en sciences sociales le savent bien, la population n'est pas homogène. Il y a des femmes, il y a des hommes. Il y a des grands et des petits, des gros et des minces, des jeunes et des âgés, des gens intelligents et d'autres qui le sont moins, des gens cultivés d'autres qui le sont moins, certains parlent français, d'autres anglais, etc.

Si l'on imagine qu'un échantillon parfait puisse exister, il faudrait donc que cet échantillon contienne la même proportion d'individus de chaque catégorie que la population globale. Le lecteur peut facilement se convaincre qu'il s'agit d'un exercice impossible si l'on considère la multitude de catégories qu'il est possible de prendre en compte.

On va donc parler de biais d'échantillonnage pour décrire une différence systématique entre l'échantillon et la population. Ces biais constituent évidemment des limites à la généralisabilité des résultats issus de la description de l'échantillon. Si mon échantillon est composé uniquement d'hommes, est-ce que les résultats de mon étude s'appliquent aussi aux femmes ? Peut-être... mais peut-être pas. Seule une réflexion menée au cas par cas permet d'évaluer ce type de risque et là, la statistique quantifiée n'y peut rien. Seule la connaissance du domaine peut donner une idée. Si j'étudie un thème neutre sexuellement, alors il est possible que les résultats obtenus sur des hommes soient valides sur l'ensemble de la population. Si au contraire, mon thème est fortement sexué, alors il est peu probable que mes résultats se généralisent, et à tout le moins, c'est à moi d'en établir la preuve, par exemple en répliquant mon étude sur un autre échantillon contenant des femmes.


3.2. Les erreurs d'échantillonnage

Même si le problème est simple, il reste que la population est incroyablement diverse alors que l'échantillon est réduit. Intrinsèquement, l'échantillonnage opère une réduction de la complexité de la réalité. Plus mon échantillon est petit par rapport à la population et plus cette réduction est importante.

Une différence majeure entre les notions d'erreur d'échantillonnage et de biais d'échantillonnage réside dans le caractère systématique de la faiblesse. En effet, si mon échantillon contient plus d'hommes que de femmes, alors que dans la population c'est l'inverse, je biaise systématiquement les résultats dans le sens d'un poids trop important donné aux informations tirées des hommes. Bien sûr, si en tant que chercheur je produis un tel biais par inattention, on aura envie de parler "d'erreur", conformément à l'usage du sens commun. Mais ce n'est pas le sens que l'on utilise lorsqu'on parle d'erreur en statistique. Dans ce dernier cas, on applique généralement le terme "erreur" aux situations où c'est le hasard qui est responsable des décalages entre la description de l'échantillon et la réalité de la population.

Comme le statisticien s'intéresse à des  statistiques (moyenne, écart-type, etc.), on réservera le terme d'erreur d'échantillonnage aux décalages induits par l'opération d'échantillonnage sur ces statistiques. Et comme on veut s'y intéresser d'une manière générale, indépendante des spécificités de telle ou telle discipline, nous allons nous intéresser aux décalages qui ne dépendent que des propriétés mathématiques des mesures prises, notamment du fait des aléas.