Pourquoi l’évaluation/rémunération sur indicateurs ne marche pas

22 mai 2019 | Entretien Individualisé

De la Critique de Lucas à la Loi de Goodhart

Pour chaque problème, il existe une solution simple, évidente, et fausse, disait Mencken. La rémunération des médecins et l’évaluation des services hospitaliers en fonction d’objectifs chiffrés font partie de ces solutions aussi tentantes qu’erronées, comme l’ont montré de nombreux sociologues, philosophes et économistes.
L’un des premiers à aborder ce sujet est Robert Lucas, au début des années 70. Lucas énonce dans sa Critique qu’il faut éviter de se baser naïvement sur des statistiques passées pour prédire le comportement futur des agents économiques.
En pratique, cela signifie qu’une corrélation observée peut devenir trompeuse si elle est utilisée dans un but de prévision ou d’évaluation. Lucas critique le postulat qui présume que les agents ne vont pas modifier leur comportement (dans un sens imprévu) face à un nouvel indicateur qui les concerne.
Prenons un exemple concret : les médecins qui utilisent des quantités importantes de solution antiseptique pour le lavage des mains sont habituellement précautionneux de leur hygiène. La consommation d’antiseptique est donc initialement corrélée à la qualité des soins. En revanche, si cette consommation est transformée en indicateur qualitatif, les médecins risquent de modifier leur consommation d’antiseptique dans le seul but d’améliorer leur score, et les flacons peuvent aussi bien être vidés dans le lavabo en fin d’année qu’utilisés pour lutter contre la transmission des infections. Dans cette situation caricaturale, la corrélation initiale entre la consommation de solution antiseptique et la qualité des soins à totalement disparu et les coûts ont augmenté. Les agents ont bien modifié leur comportement face à l’indicateur, mais pas dans le sens espéré…
Vous trouvez que je prête de bien mauvaises intentions aux soignants ?
Je laisse Charles Goodhart vous répondre. Il a fusionné la Critique de Lucas avec la Loi de Murphy en 1976 pour énoncer la Loi qui porte son nom :
« Lorsqu’un indicateur est choisi pour guider une politique économique, il perd du même coup la valeur informative qui l’avait qualifié pour remplir cette fonction. »
Une autre formulation appliquée au monde universitaire sera peut-être plus explicite : « Quelle que soit la pertinence du sujet choisi pour un examen, il cesse de devenir utile pour valider le travail des étudiants si ceux-ci le connaissent à l’avance. »
Pourquoi Goodhart a-t-il intégré la Loi de Murphy ? Celle-ci énonce que s’il existe au moins deux façons de faire quelque chose et qu’au moins l’une de ces façons peut entraîner une catastrophe, cette dernière a une probabilité de réalisation plus importante ! Goodhart considère que si les agents peuvent modifier leur comportement à leur avantage plutôt que pour le bien public, ils le feront, même si le résultat global est un désastre.
Les scientifiques ayant formulé des variantes de cette loi sont innombrables. J’apprécie particulièrement la version de Donald Campbell, sociologue américain, qui introduit une notion de progressivité :
« Plus un indicateur quantitatif est utilisé pour prendre des décisions, plus il va être manipulé et plus son usage va aboutir à corrompre le processus qu’il était censé améliorer. »
Ces différents postulats ont acquis force de loi au contact du terrain où ils sont vérifiés quotidiennement [1].
À ce stade de la démonstration, les partisans de ce type d’évaluation arborent généralement un sourire condescendant et ils émettent un commentaire qui ressemble à celui-ci :
« Ahaha, très drôle ! Vous êtes gentil, mais il faut bien une évaluation ! Nous utilisons des indicateurs chiffrés car nous n’avons rien d’autre »
Ce qui est faux, car :
Ce n’est pas drôle.
Je ne suis pas gentil.
La nécessité d’évaluer n’est pas aussi évidente qu’elle y paraît.
Il existe d’autres solutions pour évaluer correctement le travail.
En fait, sans s’en rendre compte, ces évaluateurs appliquent une Loi Shadok :

Loi qui pourrait se traduire par « Évaluons, même si notre méthode est idiote et ne donne aucun résultat tangible, plutôt que de ne pas évaluer et risquer de démontrer que nous ne servons à rien »
Nous possédons des données assez solides qui montrent que ces méthodes d’évaluation ou de rémunération incitatives ne donnent aucun résultat positif. Les anglais, qui ont mis en place depuis plusieurs années le paiement à la performance, constatent ses effets délétères prédits par Goodhart [2] [3]. Les organismes de soin américains les plus efficaces et les plus prestigieux ont abandonné ce type d’évaluation depuis longtemps [4]. Pour ce qui est de l’hôpital, les coûts ont augmenté avec la mise en place de ces outils de gestion, sans impact positif décelable sur la qualité des soins.
Je ne m’étendrai pas sur les mécanismes qui président à la fuite en avant d’une politique aussi solidement réfutée. Il s’agit fondamentalement d’une stratégie de domination : grâce à ces techniques, des gestionnaires frais émoulus d’une école d’administration peuvent garder sous leur coupe des agents de terrain pourtant hautement qualifiés. Au lieu d’être au service de la production, ce qui est sa fonction première, l’administration du travail cherche à tout prix à mettre la production à son service.
Ce qui est particulièrement intéressant, c’est de constater que les promoteurs de cette évaluation sur indicateurs réfutent leur méthode quand ils en deviennent le sujet :
Ils refusent d’être évalués eux-mêmes, ce qui est banal mais instructif. Une variante consiste à falsifier le résultat de leur évaluation ou à pratiquer une auto-évaluation, beaucoup plus sûre…
Ils reviennent à la subjectivité pour leurs besoins personnels. Comment un gestionnaire chevronné fait-il pour choisir le chirurgien à qui confier sa hanche usée ou le service pour soigner l’infarctus de son père ? Bien évidemment, il n’utilise aucun des critères d’évaluation « objectifs » qu’il a promus pendant toute sa carrière. Il passe quelques coups de fil à son réseau et c’est à partir de ce faisceau d’avis subjectifs qu’il identifie le meilleur chirurgien ou le meilleur service de cardiologie.
Donc, même eux n’y croient pas vraiment, ce qui confirme que cette évaluation sur indicateurs est un outil de pouvoir et non un outil d’efficience.
Une fois ce constat d’échec accepté, se pose la question des outils utilisables pour l’évaluation (pour ceux qui pensent qu’il faut quand même évaluer).
Les universitaires ont résolu depuis longtemps le problème pour l’évaluation du travail des étudiants à l’occasion des examens de fin d’année. Les indicateurs choisis sont des notes évaluant la réussite face à quelques exercices. Pour que ces indicateurs soient efficients, deux conditions sont nécessaires :
Les exercices/indicateurs disponibles parmi lesquels seront choisis les sujets doivent couvrir la totalité du programme [5].
Les exercices/indicateurs choisis comme sujets pour l’examen ne doivent pas être connus à l’avance, (pour échapper à la Loi de GoodHart) et encore moins être les mêmes tous les ans (pour échapper à la Loi de Campbell)
En effet, les enseignants ont constaté depuis longtemps que si le nombre de sujets potentiels était limité ou s’ils étaient connus à l’avance, les étudiants ne préparaient que ces sujets au détriment du reste du programme. Bel exemple d’application de la Critique de Lucas : il est faux de croire que les étudiants ne vont pas adapter leur travail en fonction de la probabilité de chaque sujet de tomber à l’examen. Pire, si un cours de qualité médiocre a été réalisé par un futur correcteur de l’examen, c’est ce cours que les étudiants vont apprendre au détriment d’un cours de meilleure qualité.
Aussi curieux que cela puisse paraître, cet exemple pourtant ancien et universel est totalement ignoré par les partisans de l’évaluation des professionnels sur des objectifs sanitaires : les objectifs retenus sont peu nombreux et connus à l’avance. Le résultat est un surinvestissement des soignants dans l’optimisation de ces objectifs, au détriment des autres, non évalués [6]. Comme les références déjà citées le prouvent, le résultat global est une altération des soins.
En pratique, une évaluation du soin sur objectifs sanitaires suppose au minimum :
Une large palette d’indicateurs couvrant la totalité de la fonction du soignant.
Le secret autour des indicateurs qui seront finalement choisis pour l’évaluation annuelle.
Si ces deux conditions, validées par des siècles d’évaluation universitaire, ne sont pas remplies, l’évaluation de la performance à partir d’objectifs chiffrés devient une mascarade. Elle aboutit essentiellement, comme l’énonce Campbell, à corrompre la qualité des soins.
Je ne peux conclure sans rappeler qu’il existe un autre voie pour l’évaluation, abandonnant les critères objectifs pour s’intéresser aux réseaux d’avis subjectifs. C’est celle que Google a choisie pour évaluer la pertinence de l’information avec le succès que l’on sait. Mais c’est une autre histoire.
Via le site https://www.atoute.org
—————

[1] Les seules exceptions concernent les indicateurs qui possèdent une double qualité assez rare : donner un vision globale de la qualité du travail (et donc non réduite à une fraction de celui-ci) et être peu manipulables par l’agent évalué. Il s’agit par exemple du chiffre d’affaire d’un agent commercial. Cette donnée traduit assez fidèlement l’exécution correcte de la mission confiée à cet agent. Reste néanmoins à vérifier que l’agent commercial n’emploie pas de méthodes malhonnêtes qui pourraient être délétères à moyen terme pour l’image de la société. Le chiffre d’affaire n’est donc pas un indicateur parfait.

[2] Effects of Pay for Performance on the Quality of Primary Care in England
Stephen M. Campbell, Ph.D., David Reeves, Ph.D., Evangelos Kontopantelis, Ph.D., Bonnie Sibbald, Ph.D., and Martin Roland, D.M.
N Engl J Med 2009 ; 361:368-378July 23, 2009DOI : 10.1056/NEJMsa0807651

[3] Doubts About Pay-for-Performance in Health Care, Andrew M. Ryan and Rachel M. Werner

[4] La vérité sur le paiement à la performance – Intersyndicale Avenir Hospitalier 2012.

[5] En fait, la meilleure méthode est le contrôle continu, plus subjectif et donc réputé moins égalitaire, mais permettant une vision plus étalée du travail fourni.

[6] Notion très importante, car parmi les défenseurs de la ROSP, beaucoup pensent que si les soignants se concentrent sur les objectifs retenus, ce n’est pas si grave car au moins ces objectifs de santé publique seront améliorés. Or, l’évaluation globale montre que l’amélioration de ces objectifs est minime, parfois falsifiée, et que le désinvestissement des objectifs non rémunérés aboutit globalement à une baisse de la qualité des soins. De plus, la recherche d’un score maximal peut conduire à un excès de zèle qui détériore le soin par application aveugle de l’objectif (voir la note 3).

A lire dans le magazine

« Je ne vous licencie pas, je vous libère… »

30 janvier 2018

Le processus de néo-euphémisation qui touche le monde de l’entreprise a atteint son paroxysme...

Les entretiens annuels d’évaluation vont-ils passer aux oubliettes ?

22 décembre 2015

Accenture a décidé de les supprimer pour ses 330 000 employés dès 2016. Le processus est trop...

Omis ou mal cadrés, les entretiens individuels sont sources de risques psychosociaux

23 janvier 2015

L’enquête que publie le ministère du Travail est formelle : tous les salariés ne bénéficient pas...

Entretien d'évaluation : arrêts commentés

16 décembre 2011

Dans quelles conditions le comportement peut-il entrer dans les critères d'évaluation? Les...

Réseaux Sociaux

Suivez-nous sur les réseaux sociaux pour des infos spéciales ou échanger avec les membres de la communauté.

Rejoignez-nous

Aidez-nous

Le site Souffrance et Travail est maintenu par l’association DCTH ainsi qu’une équipe bénévole. Vous pouvez nous aider à continuer notre travail.

Faîtes un don