Psychométrie

Site:	IRIS - Les cours en ligne de l'UT2J
Cours:	UOH / Statistique et Psychométrie en L1
Livre:	Psychométrie

Imprimé par:	Visiteur anonyme
Date:	jeudi 10 juillet 2025, 03:31

Description

Cette grande leçon développe la problématique de la mesure en psychologie dans une perspective épistémologique et historique. Il s'agit de poser le problème de l'observation objective et quantitative du comportement d'une part, et le problème de l'interprétation des données comme des variables théoriques d'autre part.

Rédaction : Stéphane Vautier

Table des matières

1. Applications de la psychométrie
2. Qu'est-ce que la psychométrie ?
- 2.1. Techniques de quantification en psychologie
- 2.2. Modélisation statistique des scores psychométriques
3. Qu'est-ce qu'un test psychométrique ?
4. Compétences pour maîtriser un test psychométrique
5. Les normes psychométriques
- 5.1. Normes basées sur la distribution normale
- 5.2. Normes basées sur la distribution rectangulaire
6. Un test psychométrique est-il valide ?
7. Un test psychométrique est-il discriminant ?
8. Un test psychométrique est-il précis ?
- 8.1. Précision et erreur de mesure
- 8.2. Erreur de mesure et erreur type de mesure
9. Questionnaire d'auto-évaluation

1. Applications de la psychométrie

Objectifs. Apporter des éléments de réponse à la question : quelles sont les applications de la psychométrie ?

Prérequis. Scores psychométriques

Résumé. Le champ d'application des techniques psychométriques est très vaste. On peut distinguer trois grands types d'application des tests : le dépistage, la sélection, le conseil.

1.1. Le dépistage

On peut chercher à détecter un état d'alcoolisme ou une maladie d'Alzheimer à partir des réponses à des tests. On utilise des règles de décision fondées sur des scores psychométriques.

Par exemple, dans le domaine de l'alcoolisme, le questionnaire AUDIT (Alcohol Use Disorders Identification Test, Saunders et al., 1993), que l'on trouve en version française sur internet avec les mots-clés "audit" et "alcool", classe les personnes en fonction de leurs scores de la manière suivante :

Score entre 0-8 :

Ce questionnaire n'évoque pas une consommation nocive

Score entre 9-12 :

Consommation nocive d'alcool

Score au delà de 13 :

Dépendance à l'alcool

Dans le domaine de la neuropsychologie, le Test des 5 mots, que l'on trouve aussi sur internet, permet d'alerter à propos d'une forte possibilité de la maladie d'Alzheimer, à partir de l'observation de défaillances dans une performance de rappel (Cowppli-Bony et al., 2005).

Le dépistage basé sur les tests psychométriques remonte à Alfred Binet (1857-1911) et Théodore Simon (1873-1961), qui ont élaboré une méthode d'évaluation du niveau d'intelligence des enfants, dans un contexte socio-politique où il s'agissait de repérer les enfants "arriérés", susceptibles de relever de l'école spécialisée, par opposition à l'école ordinaire (l'école publique fut rendue obligatoire en France en 1881-82).

Le principe de leur méthode consiste à associer des problèmes à un âge de résolution. Ainsi, en confrontant un enfant à une série de problèmes judicieusement choisis, il est possible de lui attribuer un âge mental, c'est-à-dire l'âge qui correspond aux problèmes qu'il sait résoudre.

L'approche de Binet et Simon a inspiré le développement des tests dits de QI.

1.2. La sélection

La sélection recouvre deux types de procesus, le concours et l'examen. Dans les deux cas, la sélection consiste à affecter tout candidat dans la classe des admis (A) ou dans la classe des non-admis (¬A).

Dans l'examen, la classification est opérée en fonction d'un critère d'appartenance à la classe A. Ce critère est souvent fourni par un score seuil, qui peut être une fonction de scores provenant de plusieurs tests psychométriques.
Dans le concours, la contrainte principale est que le cardinal de A est fixé : card(A) = n. Il s'agit de classer les candidats dans A ou ¬A, de sorte que tout élément de A soit strictement supérieur à tout élément de ¬A , eût égard à un opérateur de comparaison >. De même que dans l'examen, on utilise souvent un score pour affecter un rang aux candidats. On sélectionne ensuite les n candidats de rang supérieur.

1.3. Applications de la psychométrie

Le conseil

Les tests psychométriques sont aussi utilisés dans le cadre de l'aide à l'insertion professionnelle, pour dresser un portrait psychologique typique à partir du profil des scores. Ce portrait doit permettre aux personnes testées de construire une image de soi possédant une certaine objectivité. L'élaboration d'un projet professionnel nécessite en effet que la personne concernée évalue les exigences associées à différents parcours de formation ou à différents emplois, ainsi que l'adéquation de ces exigences à sa personnalité.

2. Qu'est-ce que la psychométrie ?

Objectifs. Apporter quelques éléments de réponse à la question : qu'est-ce que la psychométrie ?

Prérequis. Aucun.

Résumé. La psychométrie est un domaine d'ingénierie et de recherche scientifique, centré sur les techniques de quantification en psychologie et sur la modélisation statistique des scores obtenus à l'aide de ces techniques. Les tests psychométriques (ou psychologiques) sont les principales techniques de quantification proposées par la psychométrie.

2.1. Techniques de quantification en psychologie

De nombreux psychologues pensent que la personnalité des gens peut être décrite comme un faisceau de traits, plus ou moins prononcés. Prenons l'exemple suivant : Paul est très rapide intellectuellement et plutôt anxieux. Il est intéressé par l'art et déteste les tâches concrètes comme la cuisine ou la réparation d'un appareil. Julie est aussi intelligente que Paul, peu anxieuse, peut-être moins intéressée par l'art, et a du goût pour les activités pratiques.

Dans cette perspective, les personnalités des gens sont définies comme des points dans un hyper-espace dont les dimensions sont quantitatives et continues. L'intelligence dite fluide, l'anxiété-trait, l'intérêt de type artistique, l'intérêt de type réaliste, sont des exemples de traits psychologiques généraux admis par la plupart des psychologues, bien que leurs définitions demeurent imprécises (Maraun, 1998).

Les techniques de quantification des différences individuelles relatives à des traits de personnalité sont très utilisées dans la pratique professionnelle et dans la recherche en psychologie.

Le processus de quantification psychométrique prend, en entrée, des comportements observés de manière standardisée à l'aide de tests ou de questionnaires psychologiques, et produit, en sortie, des scores psychométriques. Ces scores, en principe, ne dépendent pas de l'observateur, ce qui leur confère une certaine objectivité. Cela ne serait pas le cas si les scores dépendaient fortement de la personnalité des psychologues qui administrent les tests. Si, à l'issue d'un examen psychologique, Paul a un QI de 120 et Julie un QI de 123, cette faible différence constitue un fait objectif ; on considère que le fait que Paul ait été évalué par le docteur Jovial tandis que Julie l'ait été par le docteur Grincheux a un effet négligeable sur leurs résultats respectifs, donc sur l'écart qu'il y a entre leurs scores.

Pour autant, les scores dépendent des règles qui permettent d'associer des scores à des comportements. La mise au point de procédures permettant d'observer objectivement certains comportements et de transformer le tableau de ces observations en scores est une tâche qui relève de la psychométrie.

2.2. Modélisation statistique des scores psychométriques

Les scores dépendent des règles de codage numérique décidées par les psychologues qui ont élaboré les tests. Un tableau comportemental donné, observé avec un test, peut être associé à un certain score en vertu des règles de codage que l'on applique. Si on modifie les règles qui attribuent les valeurs numériques aux observations dans le tableau, ce même tableau est alors associé à un score différent.

D'où le problème de la signification des scores psychométriques : ces scores sont-ils des artifices pour exprimer, de manière quantitative, des phénomènes qualitatifs dont on ignore s'ils possèdent une structure quantitative (Michell, 1990), ou bien sont-ils des mesures approximatives, que l'on espère "pas trop mauvaises", de grandeurs réelles, sous-jacentes aux comportements observables que les tests révèlent ? C'est selon cette dernière perspective que de nombreux psychologues interprètent les scores psychométriques.

La modélisation statistique des scores psychométriques consiste à préciser mathématiquement comment les scores observés sont reliés à des scores que l'on qualifie de latents (e.g., Bollen, 2002), et qui représentent les scores réels (mais inconnus) des personnes relativement à la grandeur que l'on souhaite mesurer. Par exemple, à supposer que l'intelligence se réduise à une grandeur mesurable, comment le score de QI, observé avec un test d'intelligence lors de l'examen de Paul, est-il relié à la mesure réelle de l'intelligence de Paul ? Un modèle statistique des scores psychométriques, que l'on appelle aussi un modèle psychométrique, précise une relation possible ou encore hypothétique entre le score observé et le score latent.

Un modèle psychométrique précise en fait deux idées générales.

Le score observé comporte une variabilité inhérente au fait d'observer, qui n'a rien à voir avec ce que l'on veut mesurer. Cette variabilité inhérente au fait d'observer renvoie à l'idée d'incertitude dans les sciences empiriques. En d'autres termes, une même mesure d'intelligence (niveau de la réalité cachée) peut être associée à des QI différents (niveau observable).
Des tests différents peuvent mesurer la même grandeur. Que le nombre de grandeurs mesurables soit plus petit que le nombre de tests possibles est crucial. Si cela n'était pas le cas, l'hyper-espace de la personnalité serait un espace de dimension infinie puisqu'il suffirait d'inventer un nouveau test pour y ajouter une nouvelle dimension.

Un aspect intéressant des modèles psychométriques est qu'ils peuvent être testés, c'est-à-dire que leur plausibilité peut être évaluée. Un modèle est une représentation simplifiée de la réalité, donc une image au mieux "pas trop" fausse de la réalité. Les statisticiens ont défini des indices d'adéquation des modèles aux données, ce qui permet d'évaluer la plausibilité d'un modèle. Si la meilleure estimation possible du modèle donne une image trop déformée des données, les idées théoriques que ce modèle permet de préciser n'ont pas une grande valeur scientifique, car elles nous écartent de la réalité. Il faut cependant remarquer que même un modèle bien ajusté aux données ne peut pas être considéré comme preuve décisive de la validité de l'hypothèse de grandeurs latentes mesurables.

Le score observé comporte une variabilité inhérente au fait d'observer, qui n'a rien à voir avec ce que l'on veut mesurer. Cette variabilité inhérente au fait d'observer renvoie à l'idée d'incertitude dans les sciences empiriques. En d'autres termes, une même mesure d'intelligence (niveau de la réalité cachée) peut être associée à des QI différents (niveau observable).
Des tests différents peuvent mesurer la même grandeur. Que le nombre de grandeurs mesurables soit plus petit que le nombre de tests possibles est crucial. Si cela n'était pas le cas, l'hyper-espace de la personnalité serait un espace de dimension infinie puisqu'il suffirait d'inventer un nouveau test pour y ajouter une nouvelle dimension.

En principe, le test des modèles psychométriques devrait permettre d'éliminer des conceptions trop naïves ou simplistes de ce que mesurent les tests psychométriques. Cependant, l'histoire de la discipline montre que la mise en évidence de l'inadéquation empirique du modèle ne suffit pas pour que les idées qu'il permet de formaliser et de tester soient abandonnées. Encore faut-il qu'une solution alternative soit disponible.

3. Qu'est-ce qu'un test psychométrique ?

Objectif. Donner une définition de ce que sont les tests psychométriques.

Prérequis. Score psychométrique.

Résumé. Un test psychométrique comprend au moins (i) un ensemble de tâches spécifiques permettant l'observation individuelle du comportement et sa description à l'aide d'un ensemble de variables dont les modalités sont bien définies et généralement quantitatives, (ii) une théorie de la précision et de la validité des observations obtenues.

3.1. La définition de Pierre Pichot

"On appelle test mental une situation expérimentale standardisée servant de stimulus à un comportement. Ce comportement est évalué par une comparaison statistique avec celui d'autres individus placés dans la même situation, permettant ainsi de classer le sujet examiné, soit quantitativement, soit typologiquement".

Cette définition est citée par Pichot lui-même dans sa 6^e édition des Tests mentaux (1967). Quelques commentaires peuvent être utiles.

La définition proposée a plus d'un demi-siècle. Comme Huteau et Lautrey (1999) l'ont souligné, le développement des tests psychométriques a largement contribué à l'édification de la psychologie dite moderne.
De nos jours, on ne parle guère plus de tests 'mentaux', expression utilisée par le psychologue James McKeen Cattell (1860-1944) dans un article publié à la fin du XIXe siècle (Cattell, 1890). Il suffit de remplacer 'mental' par 'psychométrique' dans la définition.
'Situation expérimentale standardisée' : le psychologue lambda ne décide pas lui-même quelles tâches proposer à la personne évaluée. Le test définit ce que la personne doit faire et dans quelles conditions elle doit le faire. Prenons par exemple un test composé de 10 problèmes, de sorte que les scores possibles varient de 0 (aucune réponse n'est correcte) à 10 (toutes les réponses sont correctes). Paul obtient un score de 8 points. Julie passe aussi le test, mais cette fois le psychologue décide d'ajouter deux problèmes supplémentaires ; Julie obtient un score de 8 points. Peut-on en conclure que Paul et Julie ont des performances comparables ? Bien sûr que non. La comparabilité des performances nécessite la comparabilité des conditions de la passation du test.
Par 'stimulus', entendons que le test provoque un comportement. Un test psychométrique est utilisé comme un révélateur de certaines caractéristiques des personnes évaluées, ces caractéristiques fussent-elles largement hypothétiques (ce que l'on nomme des construits). Les amateurs de cinéma songeront peut-être à Ridley Scott : dans Blade Runner, Rick Deckard utilise un test pour déterminer si une personne est un répliquant; apparemment, le test est basé sur l'absence de réaction émotionnelle face à des situations moralement stressantes...
Les observations sont interprétées de manière comparative et statistique. Le psychologue se réfère à l'ensemble des comportements observés auprès d'un échantillon (statistique) de personnes comparables. La perspective adoptée est différentielle.
Le but du test psychométrique est d'aboutir à un classement de la personne. Deux types de classements sont envisagés :
- un classement typologique, c'est-à-dire la décision de classer le comportement observé de la personne évaluée dans une catégorie particulière de comportement, parmi un certain nombre de catégories mutuellement exclusives,
- un classement quantitatif, qui ordonne le comportement de la personne évaluée dans une hiérarchie définie au niveau de la population des individus comparables.
La finalité du test psychométrique selon Pichot est descriptive. Il ne s'agit pas de faire un pronostic, ni un diagnostic. Pronostic et diagnostic sont des processus d'inférence. Par exemple, prédire la réussite scolaire à partir d'un score très élevé (pronostic), soupçonner l'existence d'un problème organique à partir d'un score très faible (diagnostic), sont des inférences. De nos jours, on attend d'un test psychométrique qu'il permette de réduire l'incertitude pronostique ou diagnostique.

3.2. Qu'est-ce qu'un test psychométrique ?

2. La définition de Maurice Reuchlin (1969)

"Les tests sont des instruments d'observation : ils définissent avec précision les conditions dans lesquelles sont observés successivement ou simultanément des individus différents ; ils fournissent les moyens d'exprimer ces observations sous une forme telle que soient possibles la comparaison de ces individus entre eux et la comparaison de chacun avec les "normes" (descriptives) de la population à laquelle ils appartiennent. Des procédés très variés d'enregistrement et de partition des observations sont employés dans la méthode des tests."

La finalité assignée par Reuchlin à l'emploi des tests est comparative et descriptive. Ni Pichot ni Reuchlin n'emploient le terme de mesure, mais, avec circonspection, préfèrent évoquer les scores psychométriques comme des classes ordonnées. Peu à peu, l'accent va se déplacer de l'observation et du classement à la mesure de caractéristiques psychologiques hypothétiques.

3.3. La définition de Michel Huteau et Jacques Lautrey

"Un test est un dispositif d'observation des individus qui présente quatre propriétés :

il est standardisé ;
il permet de situer la conduite de chaque sujet dans un groupe de référence ;
le degré de précision des mesures qu'il permet est évalué (fidélité) ;
la signification théorique ou pratique de ces mesures est précisée (validité)."

Cette définition ajoute aux précédentes deux éléments qui articulent les tests aux approches de modélisation en psychométrie. La notion de la précision des scores psychométriques obtenus avec un test psychométrique est élaborée dans le cadre d'une théorie psychométrique. En particulier, une théorie psychométrique définit le score observé comme la mesure de quelque chose, et non plus comme simple classe ordinale dans une hiérarchie. Si, d'une manière ou d'une autre, le score mesure une certaine quantité de quelque chose, avec quelle précision cette quantité est-elle mesurée ? La Théorie Classique des Tests fournit un cadre conceptuel pour définir ce que l'on appelle l'erreur de mesure, donc l'imprécision, associée à un score psychométrique. Le concept de fidélité découle du concept d'erreur de mesure.

Par contre, la théorie psychométrique laisse ouverte la question de la définition proprement psychologique de ce que mesurent les scores psychométriques. Répondre à cette question est avant tout une question de psychologie générale (ou peut-être de philosophie) : existe-t-il des grandeurs psychologiques mesurables ? Dans l'état actuel des connaissances, la question n'est pas réglée (Michell, 2000). Il n'est pas équivalent

d'affirmer qu'il existe des grandeurs psychologiques mesurables, et
d'élaborer un test psychométrique permettant de fournir des scores, que l'on interprètera comme des mesures de quelque chose ; ce quelque chose est appelé un "construit" (de l'anglais construct).

L'histoire montre que le fait de mal connaître la nature exacte de ce qui est mesuré n'empêche pas l'utilisation des scores psychométriques dans la recherche ou dans la pratique professionnelle. Lorsqu'on s'interroge sur la nature de ce qui est mesuré avec des scores psychométriques, on se pose un problème de validité.

4. Compétences pour maîtriser un test psychométrique

Objectifs. Donner un aperçu des compétences particulières demandées par l'utilisation d'un test psychométrique.

Prérequis.

Résumé. La maîtrise d'un test demande des compétences que l'on peut hiérarchiser en trois niveaux de qualification croissante : assurer l'administration du test et l'établissement des résultats psychométriques, interpréter les résultats psychométriques, prescrire le test et restituer les résultats.
1. assurer l'administration du test et l'établissement des résultats psychométriques
2. interpréter les résultats psychométriques
3. prescrire le test et restituer les résultats.

4.1. Assurer l'administration du test et l'établissement des résultats psychométriques

Ce niveau de compétence se fonde essentiellement sur l'application de procédures réglant (i) la manière dont le test est administré aux personnes à évaluer d'une part et (ii) la manière dont les réponses sont transformées en scores d'autre part. Il existe de nombreux tests dont l'administration et le recueil des données qu'ils permettent ne nécessitent pas un niveau de formation très élevé. Néanmoins, selon les tests et les personnes auxquelles le test est appliqué, certaines particularités peuvent justifier la nécessité d'une formation approfondie, qualifiant l'examinateur pour chacune de ces deux tâches.

L'administration du test

L'administration d'un test peut être individuelle ou collective. Dans le cas le plus simple, administrer un test consiste :

à vérifier que la personne, ou le groupe de personnes, est partie prenante à la situation d'évaluation, comprend les consignes du test et, le cas échéant, respecte certaines conditions (par exemple, une limite de temps),
à mettre le matériel de test à disposition de la personne ou du groupe,
à recueillir les réponses.

Certains tests cliniques (i.e., à passation individuelle et à visée diagnostique) nécessitent l'établissement d'une relation intersubjective complexe entre la personne évaluée et l'examinateur. Il est possible que certaines situations de test conduisent la personne évaluée à "se bloquer", ou bien à s'engager dans un processus transférentiel davantage qu'elle ne l'aurait souhaité après-coup. Les tests qui peuvent avoir un caractère intrusif ne peuvent pas être administrés n'importe comment, pour des raisons productives (il est stérile de "bloquer" la personne qui se sentirait menacée par l'évaluation) et déontologiques (il est obligatoire de respecter l'intégrité de la personne, cf. le Code de Déontologie des Psychologues, accessible à partir du site de la Société Française de Psychologie - on peut obtenir davantage d'informations sur d'autres sites internet).

> De plus, certains tests nécessitent la prise en compte d'aspectscomportementaux qui ne sont pas répertoriés à l'avance dans une grilled'observation ; c'est le cas par exemple des tests d'intelligence deWechsler, dont certaines tâches permettent de suggérer des stratégiesde résolution de problème. Dans ce cas l'examinateur doit résoudre des problèmes de cotation. Les tests psychométriques sont par définition des tests psychologiques qui minimisent les problèmes de cotation.

L'établissement des résultats psychométriques

La seconde tâche est l'établissement des résultats psychométriques. Elle consiste généralement à produire un profil quantitatif, "visualisation graphique d'un ensemble de résultats étalonnés sur la base d'un modèle [d'étalonnage] commun" (Guillevic & Vautier, 2005, p. 84). Cette tâche est souvent informatisable. La notion d'étalonnage, ou, plus proprement, de modèle de norme statistique, doit être connue (voir à ce sujet Guillevic et Vautier, 2005, chapitre 4). Au-delà des aspects algorithmiques de la tâche de traduction des observations en nombres, on attend d'un examinateur compétent qu'il qualifie les résultats de l'observation comme étant, ou n'étant pas, interprétables. Autrement dit, l'examinateur doit être capable de valider les données, c'est-à-dire de juger que le test de la personne a été effectué dans des conditions telles qu'on peut considérer que les réponses obtenues sont caractéristiques de cette personne.

4.2. Interpréter les résultats psychométriques

L'interprétation des résultats psychométriques est une tâche délicate. Il s'agit d'un processus du type :

Observant A, nous énonçons B.

Le problème épistémologique qui se pose est de déterminer la validité de l'énoncé B. Trois cas peuvent être envisagés :

B est vrai,
B est faux,
on ne sait pas (soit pour des raisons d'ordre pratique, qui limitent provisoirement l'état des connaissances, soit parce que B est formulé de telle façon qu'il n'est pas possible de définir un critère de validité logique de l'énoncé).

En cas d'incertitude, on cherche à réduire cette incertitude en adoptant un point de vue statistique pour ensuite exprimer des propositions probabilistes. Par exemple, un énoncé probabiliste est :

il y a 90% de chances que B soit vrai.

Restons conscient qu'on ne sait toujours pas si B est vrai ou faux. On sait seulement que si l'on a à répondre 100 fois à la question, on se trompera moins souvent en répondant Vrai qu'en répondant Faux. Ainsi, l'incertitude est diminuée à l'échelle statistique, pas à l'échelle individuelle.

On pourrait espérer qu'un test psychométrique permette de produire des affirmations valides ou tout au moins relativement fiables. Le discours produit à partir de ce qui est observé avec un test est parfois éloigné de cet idéal.

Si l'on attend d'un test qu'il permette de réduire l'incertitude pronostique ou diagnostique, il doit s'appuyer sur des connaissances empiriques fermes. Bien souvent, l'interprétation des résultats d'un test, voire d'un examen psychologique, est constituée de propositions conventionnelles, qui dressent un portrait psychologique de la personne, portrait qui est difficile à démentir ou à confirmer en raison de son caractère évasif.

Pour illustrer ce qui précède, empruntons à Costa et McCrae un exemple d'interprétation des résultats psychométriques. Costa et McCrae sont les auteurs du NEO PI-R, un inventaire de personnalité utilisé internationalement. On lit dans le manuel du test à propos d'une étude de cas : "Ce profil nous permet d'émettre un pronostic [thérapeutique] favorable pour cette patiente : des notes moyennes sur N et élevées sur C sont associées à la réussite des traitements..." (Costa et McCrae, 2007, p. 24).

N et C représentent des dimensions de personnalité ; ce sont des construits. Les auteurs font référence à des études statistiques qui permettent d'estimer la précision moyenne avec laquelle on peut prédire l'issue des "traitements", connaissant les scores en N et en C. Ces études utilisent des modèles de prévision statistique. Cependant, lorsqu'on s'intéresse à un individu en particulier, un modèle de prévision statistique n'est d'aucune utilité. Dans un modèle de prévision statistique, la notion de qualité de la prévision moyenne est définie non pas au niveau individuel, mais au niveau d'une population d'individus. Autrement dit, lorsqu'il prédit une issue favorable à partir des scores en N et C, le psychologue ne sait pas si l'issue sera effectivement favorable. L'application systématique du modèle de prévision lui permet de minimiser la moyenne des erreurs de prédiction au fur et à mesure qu'augmente le nombre des personnes pour lesquelles il prédit l'issue du traitement. En résumé, la proposition

"nous observons des scores en N et C tels que l'issue du traitement est probablement favorable"

n'est pas une proposition forte, en ce sens qu'elle n'apporte pas beaucoup d'information pour éclairer le cas de la patiente. D'un point de vue légaliste, la patiente ne peut pas reprocher au psychologue de s'être trompé dans son pronostic si celui-ci est explicitement basé sur un modèle statistique.

Parfois, l'interprétation des scores est une reformulation en langage naturel du profil des scores. Par exemple, on peut lire à propos de l'interprétation d'un autre profil de personnalité établi avec le NEO PI-R des passages comme "Cet individu est anxieux, généralement craintif et il a tendance à se faire facilement du souci. Il se met parfois en colère contre les autres et se sent souvent triste, seul et rejeté" (p. 28). Certains tests informatisés produisent ce type de prose de manière automatique à partir des réponses aux items.

L'interprétation des résultats psychométrique sera plus satisfaisante si l'on dispose d'une théorie forte expliquant les scores. Par exemple, si l'on sait que des lésions cérébrales d'un certain type provoquent des troubles cognitifs qui se traduisent par des difficultés à répondre aux items d'un test, on peut déduire que la présence de ces lésions implique un faible score au test. Par conséquent, un score élevé permettra d'écarter l'hypothèse de l'existence de ce type de lésion (conclusion de premier type). Un score faible permettra seulement de confirmer la possibilité de la lésion.

L'interprétation des résultats d'un test fait donc appel à des connaissances théoriques et empiriques d'une part, ainsi qu'à un sens critique développé. Une bonne formation logique et épistémologique est à cet égard un atout précieux.

4.3. Prescrire le test et restituer les résultats

La capacité d'un psychologue à prescrire tel ou tel test repose sur l'analyse des objectifs de la situation qui conduit à s'interroger sur la pertinence d'un test psychologique, ainsi que sur la connaissance des tests, tant dans leurs aspects pratiques (cf. le premier point de cet article) que scientifiques (cf. le point précédent).

La restitution des résultats demande non seulement la maîtrise des aspects scientifiques du test, mais aussi de la pédagogie et du tact. C'est pourquoi cette étape de l'évaluation psychométrique ne devrait pas être confiée à des personnes peu qualifiées en psychologie clinique et en psychométrie.

5. Les normes psychométriques

Objectifs. Définir les principaux types de normes psychométriques.

Prérequis.

Résumé. Une norme psychométrique est la distribution conventionnelle des scores psychométriques des personnes d'un échantillon représentatif d'une population de référence (par exemple, les scores obtenus à un test particulier par un échantillon de 350 enfants âgés de 10 à 11 ans vivant en France en 2008).

Les scores normés (ou étalonnés) sont obtenus par une application de l'ensemble des scores dits bruts (i.e., les scores composites) dans l'ensemble des nombres, qui confère à la distribution des scores normés(i.e., les images des scores bruts) des propriétés statistiques facilitant leur utilisation comparative. Cette application s'appuie sur une distribution conventionnelle, appelée "modèle d'étalonnage". On définit les distributions normées (ou "étalonnées") de manière à ce que la distribution des scores soit proche d'une distribution normale, de moyenne et d'écart types fixés (par exemple, 100 et 15, respectivement, pour les scores de QI). On trouve aussi des tests dont les scores sont normés par une distribution rectangulaire (quantiles).

En pratique, le psychologue utilise un tableau de correspondances pour traduire le score brut en score normé. Le score normé est ensuite utilisé pour déterminer la direction et évaluer l'amplitude du score normé.

5.1. Normes basées sur la distribution normale

Par définition, une distribution normale est une distribution continue, ce qui n'est pas le cas des distributions de scores psychométriques ;on utilise néanmoins le modèle normal comme approximation pratique des distributions de scores psychométriques. On doit distinguer deux types de normes basées sur la distribution normale :

les normes en scores,
les normes en classes.

Les normes en scores

Les scores d'une distribution normale peuvent être interprétés à l'unité près. Par exemple, un score de QI est par définition un score appartement à une distribution normale de moyenne 100 et d'écart-type 15. Ainsi, un score de 115 se trouve à 1 écart type après la moyenne ; un score de 130 se trouve à 2 écarts-types après la moyenne.

Le modèle normal permet de connaître la probabilité d'un intervalle donné. Ainsi, on peut interpréter un score comme un événement plus ou moins rare en référence aux scores de la population de référence.

Si les scores composites d'un échantillon de référence suivent une distribution approximativement normale de moyenne m_d et d'écart type s_d, on peut calculer la valeur y d'un score brut x pour une norme de moyenne m_a et d'écart type s_a à l'aide de la formule suivante :

Les scores dans une distribution normale de moyenne 0 et d'écart type 1 sont des scores dits z. Les scores dans une distribution normale de moyenne 50 et d'écart type 10 sont des scores dits T.

Les normes en classes

On peut aussi "découper" une distribution normale en "tranches" verticales ordonnées. Chaque tranche est une classe ordonnée. Les classes dans un modèle de distribution en 9 classes sont appelées des stanines (Guillevic & Vautier, 2005).

5.2. Normes basées sur la distribution rectangulaire

Comme pour les normes basées sur le modèle normal, on distingue des normes rectangulaires de scores et des normes rectangulaires de classes.

Centilages

Les centilages (voir par exemple Allaire, 1998) sont des scores que l'on interprète directement comme des fréquences cumulées. Par exemple, le 3 $^e$ centile est le score dont l'effectif cumulé exprimé en pourcentage est 3%. Le 25 $^e$ centile est le score dont l'effectif cumulé est 25%, etc.

Quantilages en classes

On trouve des tests dont les normes sont fournies en quartilages ou en décilages. Un quartilage est le découpage d'une distribution de scores bruts en quatre classes ordonnées dont l'effectif exprimé en pourcentage est 25% des observations. Ainsi, on a quatre quartiles. Un décilage est le découpage d'une distribution de scores bruts en dix classes ordonnées dont l'effectif représente 10% des observations. Par exemple, le 3 $^e$ décile est la classe dont l'effectif cumulé représente 30 % des observations.

Pour plus de détails, on pourra consulter Guillevic et Vautier (2005).

6. Un test psychométrique est-il valide ?

Objectifs. Présenter la doctrine de la validité des tests psychologiques.

Prérequis.

Résumé. Dire d'un test qu'il est valide (ou qu'il ne l'est pas) est un raccourci de langage. Ce qui est valide (ou pas) est un énoncé logique. La doctrine de la validité des tests psychologiques distingue quatre démarches : la validation prédictive, la validation concourante, la validation de contenu, la validation de construit.

Les trois premières démarches ont une visée pratique : les scores aux tests sont utilisés pour répondre à des questions circonstanciées. La validation de construit est une tentative d'élaboration théorique de ce qui est mesuré.

Les études de validation prédictive et concourante d'un test particulier ont pour objet la dépendance statistique de la variable des scores observés au test avec d'autres variables, pertinentes d'un point de vue pratique. La validation de contenu du test porte sur la définition de l'ensemble des items susceptibles de composer le test. La validation de construit est une démarche de construction d'un ensemble d'énoncés logiques, dont on espère tester et renforcer la cohérence par une démarche hypothético-déductive associée à la vérification empirique de certaines propositions.

6.1. Validation prédictive

La validation prédictive consiste à montrer une dépendance statistique

La notion de validité prédictive associée à un test repose sur la notion d'association statistique de deux variables. On considère un couple de variables (X, Y) définies sur une population donnée. La variable X est définie par les scores obtenus au test et la variable Y est définie par la mesure d'un critère particulier. On peut utiliser le tableau de la distribution conjointe du couple des variables pour mettre en évidence l'utilité pronostique de l'association.

Dans Essentials of Psychological Testing, Cronbach (1990, pp. 152-153) présente l'exemple suivant, fondé sur des données collectées dans 25 lycées. Un test d'aptitude est conçu pour pronostiquer le degré de réussite, A, B, C, ou D, dans une certaine matière scolaire.

Un élève a obtenu un score particulier au test d'aptitude. Si le test a une certaine validité prédictive, un conseiller pédagogique pourra indiquer à cet élève la probabilité qu'il a d'obtenir un certain niveau de performance (grade) dans cette matière, en admettant que cela ait un sens d'attribuer une probabilité à un individu sur la base de statistiques interindividuelles. Ainsi, par exemple, obtenir un score au test compris entre 21 et 30 points est associé à :

94% de chances d'obtenir les notes D, C, B ou A,
66% de chances d'obtenir les notes C, B ou A,
25% de chances d'obtenir les notes B ou A,
4% de chances d'obtenir la note A.
Tandis qu'un score au test compris entre 41 et 50 points est associé à :

99% de chances d'obtenir les notes D, C, B ou A
92% de chances d'obtenir les notes C, B ou A
62% de chances d'obtenir les notes B ou A,
21% de chances d'obtenir la note A.

Cet exemple montre que les scores au test d'aptitude possèdent une certaine validité prédictive. Ils n'en auraient aucune si la probabilité de réussir était indépendante du niveau d'aptitude mesuré. La validité prédictive d'une variable X par rapport à une variable Y observable dans le futur repose sur la dépendance statistique entre les deux variables. Si l'on souhaite quantifier la validité prédictive, il faut recourir à une mesure du degré d'association statistique entre les deux variables, comme par exemple le chi deux ou la corrélation linéaire.

La validité prédictive n'est pas une explication

Des données de ce type indiquent une tendance globale : plus le score d'aptitude est élevé, plus forte est la probabilité de réussite. Cependant, au niveau individuel, le score au test ne permet pas de déterminer le niveau de réussite qui sera effectivement atteint (cf. l'article Compétences pour maîtriser un test psychométrique, § 2). De plus, sans la compréhension des raisons de la dépendance statistique entre les deux variables considérées, il n'est pas justifié de raisonner comme si un rapport de cause à effet existait entre les deux variables. En particulier, rien ne permet de prédire que si l'élève augmente sa performance au test, alors il modifiera sa probabilité de réussite scolaire.

La validité prédictive n'est pas une propriété du test

Enfin, on remarquera que la validité prédictive du test d'aptitude est en fait une propriété des données considérées. Il est possible qu'en collectant des données dans d'autres lycées, la relation de dépendance entre les nouvelles variables X et Y puisse être considérablement différente (ou pas). Par "validité prédictive d'un test", on doit entendre "validité prédictive observée avec le test dans une population donnée (voire à un moment donné)".

6.2. Validation concourante

La notion de validité concourante recouvre aussi la notion de dépendance statistique entre les variables X et Y définies sur une population donnée.

"Une étude de validité concourante est totalement logique lorsqu'un test est proposé pour remplacer une procédure d'évaluation psychométrique plus lourde. Le développeur du test espère que le test indique ce que la procédure plus lourde dirait de la personne à ce moment" (Cronbach, 1990, p. 155).

Considérons un nouveau test psychométrique B développé pour remplacer un test A, dont on connaît la validité prédictive par rapport à un certain critère C. La validité concourante du test B sera attestée par une "très forte" dépendance statistique entre la variable X_A des scores au test A et la variable X_B des scores au test B, de sorte que la validité prédictive de la variable X_B par rapport au critère C soit approximativement conservée.

D'un point de vue logique, la validité concourante permet le raisonnement (transitif) suivant :

Si la variable X_A est prédictive de la variable Y, et si la variable X_B est fortement associée à la variable X_A,

alors la variable X_B est prédictive de la variable Y.

6.3. Validation de contenu

La notion de validité de contenu repose sur une vision ensembliste des items pouvant composer le test. Les items a, b et c peuvent être considérés comme de bons indicateurs du construit que l'on cherche à mesurer, tandis que les items e et q sont considérés comme ne relevant pas du construit visé par le test. Par exemple, l'item "Je me fais beaucoup de souci" est un bon indicateur de l'anxiété, tandis que l'item "Je me sens triste" relève davantage de la dépression.

La validité de contenu d'un test renvoie à deux types de questions :

Les items sélectionnés dans le test sont-ils inclus à juste titre ?
Manque-t-il des items qui devraient être inclus dans le test ?

Répondre à la première question nécessite un critère d'inclusion - l'item doit posséder au moins telles propriétés - et un critère d'exclusion - l'item de ne doit pas posséder telles propriétés. Répondre à la seconde question nécessite de s'appuyer sur une définition générique du construit.

Prenons un exemple : un test de vocabulaire en anglais ne serait pas 'valide de contenu' si son vocabulaire portait exclusivement sur le champ sémantique de la pratique du ski. Si la liste complète des mots de vocabulaire d'anglais était disponible, on pourrait définir un échantillon d'items en optimisant la représentativité des items du point de vue des champs sémantiques couverts.

La validité de contenu est une propriété du test (et non pas une propriété des variables de scores qu'on peut lui associer). Dire d'un test qu'il est valide de contenu signifie que l'on convient que les items du test représentent bien les items par lesquels le construit est défini génériquement. La validation concourante est une propriété relativement subjective. On peut s'accorder à considérer que tel test a une "bonne", une "très bonne" validité de contenu, ou bien que sa validité de contenu est "insuffisante". Il est difficile de quantifier le degré de validité concourante d'un test.

6.4. Validation de construit

La notion de validation de construit entre en jeu lorsque le psychologue utilise le test pour mesurer un construit.

"Un construit est un attribut humain que l'on postule, et dont on suppose qu'il est reflété par la performance au test" (Cronbach & Meehl, 1955, p. 283).

Selon cette perspective, on fait l'hypothèse d'une réalité quantitative sous-jacente au test. En particulier, on considère que les différences individuelles qui existent au niveau du construit expliquent la variabilité observée avec le test. On retrouve aussi l'idée que les réalités mesurables en psychologie sont moins nombreuses que les tests pour les mesurer, les construits étant définis à un niveau d'abstraction ou de généralité plus élevé que les tests (cf. Qu'est-ce que la psychométrie ?).

Exemple : un test mesure-t-il l'ambition universitaire ou bien l'anxiété ?

Nous allons utiliser l'exemple de Cronbach et Meehl (1955) en le développant à notre guise. On considère l'énoncé particulier

P1 : Le test A mesure le niveau d'anxiété.

Le problème est de savoir si une telle proposition est valide. On pourra s'appuyer sur les éléments "théoriques" suivants :

P2 : L'anxiété est un trait de personnalité plus ou moins marqué selon les personnes.
P3 : Le niveau d'anxiété est associé positivement avec le niveau de réactivité émotionnelle.
P4 : Le niveau de réactivité émotionnelle peut être mesuré avec un galvanomètre dans une situation expérimentale (un galvanomètre est un instrument mesurant un très faible courant électrique).
P5 : Un haut niveau de réactivité émotionnelle sature les capacités cognitives (attention, mémoire à court terme).
P6 : La saturation des capacités cognitives se traduit par une baisse de la performance à un test de mémoire.

On considère maintenant un groupe d'étudiants ayant passé un examen, à qui on annonce individuellement qu'ils ont échoué. On enregistre immédiatement leur réaction émotionnelle à l'aide d'un galvanomètre. On déduit de la "théorie" que les mesures galvanométriques et les scores au test A sont positivement liés. Un résultat contraire indiquerait que "quelque chose cloche" dans la théorie, ou bien que P1 n'est pas valide.

On s'intéresse maintenant à une mesure d'inefficience mnésique induite après un choc électrique. À nouveau, la théorie permet de déduire que les scores au test A doivent être positivement associés aux mesures d'inefficience mnésique.

On complète la théorie avec la proposition suivante :

P7 : Le niveau d'anxiété est associé positivement avec l'acuité du sentiment de tension ou de nervosité.

Cette proposition permet de déduire qu'une mesure du sentiment de tension doit être positivement associée au score au test A. Comme précédemment, un résultat contraire indiquerait que la théorie n'est pas valide ou bien que la proposition P1 n'est pas valide. L'observation d'une association positive entre les deux variables corrobore à la fois la théorie et la proposition P1.

L'accumulation de faits empiriques qui corroborent P1 n'est pas suffisante. Encore faut-il exclure des interprétations alternatives. Par exemple, comment exclure la proposition suivante :

P'1 : Le test A mesure le niveau d'ambition universitaire.

En effet, il semble logique que l'annonce d'un échec scolaire affecte d'autant plus les étudiants qu'ils ont un haut niveau d'ambition scolaire. L'association entre les scores au test A et les mesures galvanométriques peut donc être expliquée par P'1 aussi bien que par P1.

Ajoutons les propositions suivantes à la théorie :

P8 : Le niveau socio-économique est positivement associé au niveau d'ambition universitaire
P9 : Le niveau socio-économique n'est pas associé au niveau d'anxiété.

Si le test A mesure le niveau d'ambition universitaire, les scores au test doivent être positivement associés au niveau socio-économique. Si le test mesure le niveau d'anxiété, les scores au test et le niveau socio-économique ne doivent pas être associés. L'observation d'une faible association statistique entre les deux variables permettra d'écarter la validité de P'1.

Documentation empirique de la validité de construit

Dans la doctrine de la validité, un construit est localisé dans le domaine de la réalité non directement observable, au même titre, selon certains auteurs, qu'un électron par exemple. Toutefois, son statut quantitatif est admis de manière préalable, puisqu'il se mesure à l'aide d'un test, instrument de codage numérique des comportements (cf. Score psychométrique). Par exemple, si l'anxiété est définie comme un trait psychologique, si ce trait est susceptible d'introspection guidée par un questionnaire, on peut proposer un test pour mesurer la manière dont les personnes diffèrent quantitativement sur ce trait. La variance observée avec le test sera interprétée comme un effet de la variabilité du niveau d'anxiété dans la population à laquelle est appliqué le test.

Pour étayer ce type d'interprétation, on développe un ensemble de propositions ou d'énoncés qui relient le construit à d'autres concepts ou observables, formant ainsi ce que l'on appelle un "réseau nomothétique" (nomothétique : "dont l'objet et la méthode permettent d'établir des lois générales ou universelles, représentées par des relations constantes entre les phénomènes observés", Le Trésor de la Langue Française Informatisé). Par exemple, les énoncés P2 à P9 sont constitutifs du réseau nomothétique dans lequel s'inscrit le concept d'anxiété. Supposons que l'on affirme maintenant que tel test mesure l'anxiété. Grâce au réseau nomothétique, cette affirmation peut donner lieu à un certain nombre de vérifications empiriques.

La doctrine de la validité de construit se fonde sur l'espoir que la vérification empirique de la validité des propositions développées au niveau nomothétique permettra d'éliminer les conceptions naïves et de favoriser l'émergence de conceptions plus cohérentes de ce que mesurent les tests.

7. Un test psychométrique est-il discriminant ?

Objectifs. Définir la notion de discrimination psychométrique.

Prérequis.

Résumé. Un test est suffisamment discriminant s'il permet suffisamment de mettre en évidence des différences individuelles recherchées dans la population à laquelle il est appliqué.

L'utilité des tests psychométriques repose sur la possibilité qu'ils offrent d'établir des différences individuelles objectives (cf. Qu'est-ce qu'un test psychométrique ?). Si dans une population donnée la passation d'un test conduit à attribuer le même score à tout le monde, le test manquera de pouvoir discriminant.

Il ne suffit pas que les scores que l'on obtient avec un test se dispersent sur l'échelle des scores pour que le test soit utile. Encore faut-il que les différences observées soient valides. Par exemple, si l'on souhaite distinguer les individus 'malades' des individus 'sains' à partir d'une valeur seuil au test, il faut que la proportion de faux positifs (les faux malades) et la proportion de faux négatifs (les faux sains) soient les plus petites possibles. Pour établir ce type de statistiques, il faut évidemment disposer d'un critère autre que celui donné par le test pour classer les individus (pour plus de détails, voir Ancelle, 2002).

Si l'objectif assigné au test est d'établir un classement des individus, la trop grande difficulté (ou facilité) d'un test pour les individus auxquels il est appliqué peut le rendre peu discriminant. Cet aspect renvoie à la notion de validité de contenu abordée dans l'article Un test est-il valide ? (cf. § 2). Supposons que le test de vocabulaire en anglais soit composé de 20 mots très usuels. Utiliser un tel test pour établir un classement des élèves de terminale serait sans doute une mauvaise idée, car la plupart des élèves obtiendraient un score très élevé. Le test manquerait de pouvoir discriminant, car le test serait trop facile. De la même manière, un test trop difficile manquera de pouvoir discriminant, car la plupart des individus évalués obtiendront des scores très faibles.

Par contre, si le but est de mettre en évidence un très petit nombre d'individus capables d'obtenir des scores élevés à un test, alors on a intérêt à utiliser des items difficiles.

8. Un test psychométrique est-il précis ?

Objectifs. Poser le problème de la définition et de l'estimation de la précision des scores psychométriques selon la théorie classique des tests.

Prérequis.

Résumé. Dire d'un test qu'il est précis est un raccourci de langage. On entend par là que le test fournit des scores précis. La précision d'un score psychométrique est donnée par la taille de l'erreur de mesure : plus l'erreur de mesure est petite, plus précise est la mesure.

La théorie classique des tests permet d'estimer la taille typique de l'erreur de mesure au niveau d'une population de personnes. Cette taille typique de l'erreur de mesure est appelée l'erreur type de mesure.

8.1. Précision et erreur de mesure

Dire d'un instrument de mesure qu'il est plus ou moins précis signifie qu'il fournit des mesures plus ou moins précises. C'est donc qu'on sait à quelles mesures exactes rapporter les mesures obtenues avec l'instrument. En psychométrie, le score d'une personne est interprété comme mesure d'une grandeur (un construit) dont la définition ne permet pas de déterminer la mesure exacte associée au score, que ce soit par calcul théorique ou par des mesures alternatives. La valeur exacte associée au score doit donc être définie d'une autre manière. Le score vrai, espérance mathématique d'une variable imaginaire définie par la répétition infinie de l'administration du test, fournit le concept de la mesure exacte associée au score.

En pratique, un psychologue ne dispose que du score observé pour estimer le score vrai qui lui est associé. Par conséquent, la notion de score vrai demeure une notion théorique et, faisant écho au problème de l'indétermination théorique du construit mesuré, un 'halo d'incertitude' entoure le score observé. La question est alors de quantifier l'importance de l'incertitude qui entoure la détermination de la valeur du score vrai. Plus les erreurs de mesure sont dispersées autour du score vrai, plus forte est l'incertitude associée à la distance existant entre le score vrai et le score observé. D'où l'intérêt pratique d'estimer l'écart type de l'erreur de mesure. Ainsi, par exemple, deux tests supposés mesurer le même construit peuvent être comparés du point de vue de leur précision.

8.2. Erreur de mesure et erreur type de mesure

Étant donnés un test, une situation d'évaluation et une population de personnes évaluées, il faut distinguer soigneusement :

l'erreur de mesure associée au score observé d'une personne particulière,
l'erreur de mesure associée à n'importe quelle personne de la population de référence.

Erreur de mesure au niveau intraindividuel

Au niveau intraindividuel, la variable de l'erreur de mesure est spécifique à chaque personne de la population. Par exemple, la variable de l'erreur de mesure associée à Paul peut avoir pour écart type 2 points de QI, tandis que la variable d'erreur de mesure associée à Julie peut avoir un écart type de 6 points de QI. Dans ce cas, le score observé a plus de précision lorsque le test est appliqué à Paul qu'à Julie.

La théorie classique des tests ne permet pas d'estimer l'écart type de l'erreur de mesure pour une personne donnée, mais seulement l'écart type de la variable des erreurs de mesure définie pour la population des personnes évaluées.

Erreur de mesure au niveau interindividuel : l'erreur type de mesure

La variable de l'erreur de mesure définie au niveau d'une population de personnes est le "mélange" des variables des erreurs de mesure de chaque personne de la population (attention, ce n'est pas une somme de variables). Cette variable est habituellement notée E (la variable de l'erreur de mesure du i ème individu de la population peut être notée e_i ).

L'écart-type de E s'appelle l'erreur type de mesure et est noté σ (E) ou encore σ_E (lire "sigma de E"). L'erreur type de mesure est une fonction de deux paramètres statistiques :

l'écart type de la variable Y des scores observés, noté σ (Y) ou encore σ_Y,
la fidélité de la variable Y, notée ρ(Y) ou encore ρ_Y (lire "rho de Y").

On montre que :

$\sigma(E)=\sigma(Y)\sqrt{1-\rho(Y)}.$

Dans le cadre de la théorie classique des tests, l'erreur type de mesure est la meilleure estimation que l'on puisse avoir de l'écart type de l'erreur de mesure pour un individu en particulier. Cela ne veut pas dire que la dispersion de l'erreur de mesure pour cet individu est exactement celle qui est donnée par l'erreur type de mesure.

9. Questionnaire d'auto-évaluation

Ce QCM comprend 10 questions. Répondez à chaque question puis, à la fin, lorsque vous aurez répondu à toutes les questions, un bouton "terminer" apparaîtra sur la dernière question. En cliquant sur ce bouton, vous pourrez voir votre score et accéder à un corrigé.

Accessibilité

Tout remettre à zéro

Couleur de fond

Police

Taille de police

Couleur de texte