6. Approche intuitive de la statistique inférentielle


Objectifs. Introduire la notion d'inférence statistique.

Prérequis.

Résumé. L'article pose le problème fondamental auquel tente de répondre la notion d'inférence. Une présentation intuitive de ce problème est proposée et on montre qu’il existe une réponse intuitive à ce problème, une inférence statistique naïve. La démarche statistique classique n’est alors qu’une réponse formelle, systématique et mathématisée, à ce problème naturel.


1. Approche Intuitive de la statistique inférentielle 

L’histoire du pouvoir télékinétique de Mr Magic … ou la preuve que vous possédez déjà intuitivement la démarche statistique !

En vacances dans un endroit très touristique, vous croisez un magicien et des badauds « Approchez mesdames et messieurs, venez voir M. Magic, l’homme qui peut contrôler les objets par le pouvoir de sa pensée ! ». Bien entendu, être de raison, vous êtes plus que sceptique. L’homme ajoute « Regardez mesdames et messieurs, M. Magic peut faire tomber la pièce de monnaie du côté que vous voulez… » Un enfant parmi les spectateurs demande alors au magicien de faire tomber la pièce sur le côté pile.   « Regardez mesdames et messieurs M. Magic va faire tomber la pièce sur pile ! ». Il lance la pièce en l’air et, effectivement, la pièce tombe sur pile. « Et voilà, mesdames et messieurs, la démonstration du pouvoir télékinétique de M. Magic ! ».

À cet instant, ayant suivi l’échange et la « démonstration » du coin de l’œil, la première idée qui vous vient à l’esprit risque d’être : « bah, c’est sans intérêt, de toute façon il y avait une chance sur deux que la pièce tombe du bon côté ».

Prenons le temps d’analyser cette réaction. Le magicien a obtenu le résultat qu’il avait annoncé, donc, en droit, on pourrait se dire que son affirmation initiale a été corroborée par l’expérience. Mais voilà, vous savez pertinemment que le hasard seul est largement suffisant pour expliquer cette observation. Vous devez donc trancher entre deux explications (au moins),l’une facile à croire, l’effet du hasard, l’autre très difficile à croire,l’effet de la télékinésie. Eh bien, par ce raisonnement simple, vous venez de réaliser un véritable test de signification statistique. Vous aviez d’un côté l’hypothèse énoncée par le magicien, le pouvoir télékinétique. D’un autre côté, vous avez mobilisé l’hypothèse que le hasard pourrait expliquer le résultat observé. Cette deuxième hypothèse revient à dire qu’en réalité, l’effet télékinétique est nul, et donc on appelle cette deuxième hypothèse« hypothèse nulle ». Vous vous trouvez donc à devoir choisir, décider, entre deux hypothèses contradictoires pour expliquer l’observation empirique. L’hypothèse du magicien ou l’hypothèse nulle. A priori, vous n’êtes pas prêt à croire à l’hypothèse du magicien. À combien évaluez-vous la probabilité a priori que cette explication soit bonne ? Une chance sur mille ? Sur dix mille ? Sur un million ? Quoi qu’il en soit, en comparant une chance sur 2 pour que la pièce tombe du bon côté par hasard et les chances qu’on ait affaire à un super pouvoir, la décision est vite prise : vous choisissez de croire à l’effet du hasard. Vous acceptez l’hypothèse nulle et le test du magicien n’a pas été concluant.

En fait, c’est même tellement évident que vous vous doutez déjà que le magicien ne va pas en rester là. Le grand frère du petit garçon lui-même s’exclame « c’est un coup de chance ! Je parie que vous ne pouvez pas le refaire… »

« Eh bien, mesdames et messieurs, Monsieur Magic peut le refaire, autant de fois que vous le voulez ! ». Et, sur ce, il lance trois fois la pièce et trois fois elle tombe sur pile. Vous commencez à douter car, quatre lancers de suite qui tombent sur pile par hasard, vous savez que c’est encore possible, mais moins fréquent. Mais, néanmoins, c’est encore suffisamment possible pour que vous ne changiez pas votre opinion.

Analysons cette deuxième partie de l’histoire. Le point intéressant maintenant, c’est que même sans faire formellement le calcul, vous savez – et même l’enfant le sait aussi – que la probabilité de sortir pile au hasard 4 fois de suite (la première fois et les trois fois suivantes) est faible. Effectivement, l’analyse mathématique du problème donne pour cette probabilité une chance sur 16, soit 6% de chances environ. Mais cela reste quand même possible.

Poursuivons notre histoire, car vous avez déjà bien compris que le magicien ne s’arrêterait pas là… et effectivement, il lance encore dix fois la pièce et dix fois elle tombe sur pile. « Et voilà, mesdames et messieurs, la démonstration irréfutable du pouvoir télékinétique infaillible de Mr Magic ! ». Mais bon, on ne vous la fait pas. Vous pensez immédiatement que la pièce doit être truquée pour tomber sur pile. Pas la peine d’adopter une croyance invraisemblable comme la télékinésie.

Analysons maintenant cette troisième partie. Cette fois, vous êtes bien convaincu que le hasard n’est pour rien dans le résultat des lancers de pièce. De fait, si l’on fait le calcul, cette probabilité est nettement trop faible pour qu’on puisse adopter sans autre forme de procès l’hypothèse que le hasard puisse expliquer cette série de 14 côtés pile (moins d’une chance sur 16000 en fait). Donc, même sans calcul explicite, vous avez spontanément abandonné cette explication. Vous, tout comme l'enfant, avez « rejeté l’hypothèse nulle ».

Sans le savoir, vous avez donc entièrement réalisé la démarche d’un test statistique. La seule véritable différence tient au fait que vous avez utilisé vos intuitions de probabilité et votre intuition du degré de risque acceptable ou non, plutôt que d’utiliser des routines mathématiques reconnues et des conventions sociales en vigueur dans la communauté scientifique concernant l’acceptabilité des hypothèses. Dans les articles suivants, et en particulier dans les grandes leçons dédiées aux statistiques inférentielles, nous examinerons de plus près comment la statistique, en tant que discipline, formalise ces intuitions pour des calculs rigoureux.

En résumé:

  • Pour expliquer un phénomène observé (phénomène généralement exprimé par un jeu de statistiques descriptives), on a toujours au moins deux hypothèses, l’hypothèse nulle (le hasard explique ce qu’on a observé) et l’hypothèse alternative (il existe un effet systématique derrière les résultats observés, peut-être l'hypothèse du chercheur ou un autre effet systématique inconnu comme un biais méthodologique) ;
  • Si le hasard semble pouvoir expliquer facilement les résultats, on privilégie l’hypothèse du hasard, l’hypothèse nulle.
  • S’il semble invraisemblable que le hasard puisse expliquer les résultats, on admet sans difficulté qu’il y a « quelque chose », autrement dit, on rejette l’hypothèse nulle (mais sans nécessairement accepter l’hypothèse du chercheur).

Ces trois points constituent les bases de la «  statistique inférentielle  ». C’est-à-dire une approche formelle visant à prendre exactement la même décision (accepter ou rejeter l’hypothèse que le hasard explique les résultats observés) mais en s’appuyant sur une analyse rigoureuse des situations étudiées.

En particulier, les statisticiens s'attachent à préciser des méthodes rigoureuses de calcul de la probabilité que l'hypothèse nulle soit la bonne. L'étude de quelques-unes de ces méthodes est précisément l'objet de ce cours. 

Accessibilité

Couleur de fond

Font Face

Taille de police

1

Couleur de texte