Histogrammes

Variables, valeurs et modalités" et soit la vidéo).

Résumé. L'histogramme est une façon de représenter les données statistiques qui permet d'associer visuellement des nombres à des catégories discrètes (mutuellement exclusives), à l'issue d'un tri à plat

Rédaction : Éric Raufaste

Prenons tout de suite un exemple, le salaire moyen pour les hommes en les femmes, par catégorie socio-professionnelle, en France, en 2005 (source INSEE, http://www.insee.fr/fr/themes/tableau.asp?reg_id=0&id=38). On trouve sur le site de l'INSEE le tableau suivant :

Les nombres sont précis, mais ils ne parlent malheureusement pas à l'intuition : il est difficile de véritablement sentir ce qu'ils représentent simplement sur la base de leurs seules valeurs numériques. Par contre, il est possible d'en donner une traduction visuelle, à laquelle il sera beaucoup plus facile de donner une signification. Il suffit de tracer, pour chaque CSP (cadres, professions intermédiaires, etc.), une barre qui sera d'autant plus haute que le nombre associé à cette catégorie sera élevé. Ainsi, nous pouvons construire, en nous restreignant aux données des femmes, l'histogramme suivant :

Immédiatement, les différences entre les catégories socio-professionnelles prennent un sens. D'un seul regard, on sait qui gagne le plus, qui gagne, le moins, et on a même une perception intuitive des écarts entre les salaires, faibles si on compare les ouvrières et les employées, forts si on compare les cadres aux autres groupes.

Si l'on revient maintenant au tableau de départ, on voit qu'il y a aussi une colonne pour les hommes. Il y a donc la volonté pour le concepteur du tableau d'apporter une information différente pour les deux sexes, et donc de permettre une comparaison. Une première idée pourrait consister à créer le graphique des hommes sur le même modèle que celui des femmes :

Ce qui frappe les yeux, c'est la similitude avec le graphique précédent. Il faut vraiment regarder de près pour voir qu'il existe des différences. L'intuition véhiculée par cette nouvelle représentation graphique est donc que la structure des salaires n'est pas fondamentalement différente selon les sexes. Pourtant, si l'on y regarde de plus près, on s'aperçoit que l'axe des Y monte jusqu'à 60000€ sur le graphique des hommes alors qu'il s'arrête à 40000€ sur celui des femmes ! Autrement, cette impression de similitude est une illusion ! C'est là un point très important : si l'on veut comparer des graphiques, il faut absolument qu'ils aient la même échelle sous peine d'induire des illusions .

On peut aussi renforcer la facilité de comparaison en rapprochant directement les deux séries de données au sein d'un même histogramme. Par ailleurs, les règles de bonne composition des figures scientifiques veulent que chaque axe ait un titre et que la figure elle-même ait un titre.

Nous obtenons alors la figure suivante :

On remarque alors que l'histoire racontée par cet histogramme est maintenant totalement différente de l'impression induite par les deux graphiques précédents : cette fois, on voit que quelle que soit la CSP, les hommes gagnent plus que les femmes. On remarque même quelque chose qui serait passé totalement inaperçu sans une comparaison directe avec une échelle unique pour l'axe des Y : la différence existe dans toutes les catégories, mais elle est surtout marquée chez les cadres. Autrement dit, non seulement les hommes gagnent plus, mais cette différence s'accentue avec la montée dans l'échelle sociale.

Clairement, l'intuition véhiculée par la mise en forme graphique des nombres est très facile à modifier. C'est d'ailleurs à la fois la force et la faiblesse des représentations graphiques. C'est une force, car le pouvoir expressif de l'image est considérablement plus puissant que celui des nombres bruts. C'est une faiblesse, car une impression fausse peut facilement être créée, volontairement par les personnes dont c'est le métier de manipuler les opinions publiques, ou involontairement par le chercheur de bonne foi qui connaît trop le sens des données et oublie que celui-ci reste à découvrir par la personne qui verra le graphique.

Ensuite, il existe diverses options permettant d'enjoliver les graphiques, et en particulier l'ajout d'une troisième dimension :

C'est peut-être un peu plus attractif à l'œil, mais le message véhiculé passe-t-il mieux ? Rien n'est moins sûr, car la 3D n'apporte en réalité ici aucune information pertinente. Elle ne fait que distraire l'œil. On pourrait néanmoins remarquer que la mise en perspective fait qu'une partie du bleu est cachée, ce qui renforce l'impression d'une dominance du rouge sur le bleu.

Une variante est peut-être plus pertinente, qui consiste à mieux séparer les deux séries de données :

Sur cette autre version des mêmes données, on voit que la comparaison des CSP, à l'intérieur du groupe des femmes d'une part, et à l'intérieur du groupe des hommes d'autre part, est facilitée par rapport à la version précédente.

Conclusion : quand on choisit une représentation graphique des données, il faut avant tout être vigilant à ce que les propriétés intuitives de l'image résultante soient en accord avec le message à faire passer... lequel doit, bien entendu, correspondre à la réalité !