L’Association "Sauvons la Recherche" Groupes de travail Comités loc. et transv. Université de printemps 2011 EUROPE
Accès thématique Emploi et précarité Communiqués de SLR Actualités communiqués partenaires
Médiathèque Les archives Documentation revue de presse Tribunes et Contributions
accueil contact plan du site admin
caractères +caractères -
article
réactions (2)
Accueil / Tribunes et Contributions / L’évaluation : pourquoi évaluer et comment le faire ?

L’évaluation : pourquoi évaluer et comment le faire ?

Par Dezellus, le 10 avril 2009

Depuis la saillie du président de la république sur l’évaluation, ou plutôt la non évaluation, des enseignants-chercheurs, ce sujet est devenu central et a suscité des réactions vigoureuses de très nombreuses instances jusqu’à l’académie des sciences.

La première réaction aux discours outranciers tenus par le président fut nécessairement épidermique pour s’élever contre des propos mensongers qui n’avaient d’autre objectif que de jeter toute une profession à la vindicte populaire. Vu l’écho médiatique reçu, cet objectif fut bien atteint [1] !

Le premier choc passé, il importe de se tourner vers cette activité d’évaluation, qui fait bien partie intégrante du quotidien des personnels de la recherche mais qui peut recouvrir des réalités et des finalités très différentes. Par ailleurs, avec la mise en place de l’Agence d’Evaluation de la Recherche et de l’Enseignement Supérieur (AERES) et maintenant l’introduction dans le décret statutaire des enseignants-chercheurs d’une évaluation quadriennale, la signification même de ce qu’est l’évaluation a changé.

Dans ce texte on s’attachera à remettre les questions qui doivent précéder un travail d’évaluation dans le bon ordre. La première c’est pourquoi évaluer, dans quel objectif ? Ce n’est qu’ensuite que la question du comment et des moyens pourra être envisagée. A l’inverse, le gouvernement préfère actuellement mettre l’accent sur les moyens en les justifiant uniquement par une stigmatisation outrancière des personnels soi-disant non évalués. Ce faisant, il maintient dans l’ombre la première question du pourquoi et donc les raisons politiques, voire idéologiques, qui l’on conduit à imposer certains outils d’évaluation.

Evaluer quoi ?

L’évaluation est très présente dans les métiers de l’enseignement supérieur et de la recherche et elle s’exerce sur différents objets qu’il importe d’identifier pour mettre en relief les spécificités de l’évaluation de chacun. Il est ainsi indispensable de distinguer l’évaluation des productions (scientifiques via les articles, d’enseignement via l’évaluation des U.E.), celle des personnels (chercheurs et enseignants-chercheurs) et enfin celle des structures collectives (unités de recherches, formations, établissements). En effet, si elle peuvent parfois s’alimenter l’une l’autre et donc être coordonnées elles ne devraient en aucun cas être confondues. On s’intéressera ici principalement à l’évaluation individuelle mais l’on verra également ses relations avec la production et les structures.

Pourquoi évaluer ?

On peut évaluer pour au moins deux grandes raisons : la première est que l’évaluation du travail répond à un besoin de tout un chacun de pouvoir mettre en mot ce qu’il fait, de prendre du recul sur son activité en la discutant avec un extérieur et finalement d’en tirer une certaine reconnaissance. La visée première est de permettre à l’évalué de progresser dans ses pratiques professionnelles ou de l’aider à évoluer le cas échéant. La reconnaissance obtenue n’est pas nécessairement pécuniaire mais plutôt symbolique car l’évaluation par les pairs permet in-fine de s’enraciner dans une communauté qui nous reconnaît un droit d’appartenance [2]. Dans cette optique d’évaluer le travail réel, l’évaluation de la structure dans laquelle l’individu est actif est indispensable pour prendre en compte le contexte dans lequel se développe son activité. On a alors un couplage, sans qu’il y ait toutefois identification, entre évaluation des individus et des structures, l’une se nourrissant de l’autre.

La seconde est d’évaluer les travailleurs afin d’identifier les meilleurs et de les récompenser soit par des crédits budgétaires supplémentaires (première étape) soit par des primes et des avancements de carrière accélérés (étape ultime). La visée est également de faire progresser les personnes mais par l’aiguillon de la concurrence. Autre différence importante, pour dégager les meilleurs il est nécessaire de passer par une étape de classement. Celui-ci s’opère sur la base de critères qui permettent d’aligner toute le monde sur une même échelle chiffrée. Bien entendu, le classement implique nécessairement que certains seront en queue de classement et que pour eux l’aiguillon de la concurrence s’appelle la sanction-punition. C’est clairement ce second choix que l’on voit se développer très rapidement depuis l’élection du président Sarkozy. Nous verrons dans la suite que ce type d’évaluation comparative conduit finalement à identifier, et finalement à confondre, évaluation du travail et évaluation de la production.

On peut globalement considérer que le premier type d’évaluation, évaluation du travail, était celle pratiquée par le Comité National de la Recherche Scientifique (CoNRS) tandis que la seconde, l’évaluation de la performance [3], est celle de l’AERES.

Evaluer : le choix subjectif des outils.

Le choix subjectif entre évaluation du travail et de la performance transparaît clairement dans les outils et les méthodes employés par l’AERES.

Tout d’abord ses membres sont tous nommés et sont désignés comme des experts, ce ne sont plus des évaluateurs et aucun élu n’est parmi eux. La différence est importante pour les raisons suivantes : un élu se doit d’avoir à l’esprit qu’il a été démocratiquement désigné par une communauté, il n’est pas là à titre personnel mais agit en tant que représentant. On imagine donc qu’il sera a priori insensible aux injonctions qui pourront lui être faites par les tutelles institutionnelles. Mais le plus important c’est que cette position d’élu doit le placer dans une position d’écoute des personnels qu’il rencontre. Par ailleurs, représentant une communauté, il peut apporter la reconnaissance symbolique de l’appartenance à cette communauté. Pour évaluer le travail réel fait par les personnels il est indispensable de se rendre sur place et surtout de se mettre en position d’écoute. C’est pour cela que le comité de visite lors des évaluations du CoNRS était l’étape centrale du processus. Avec l’AERES 80 à 90% du rapport est bouclé avant la visite car les experts n’ont rien à « entendre », contrairement à l’évaluateur. Cette posture d’expert introduit une distance avec l’évalué en plaçant l’expert au-dessus, dans une situation de juge. Nul besoin pour lui d’être attentif au subjectif et au réel ressenti par les personnels évalués, son expertise l’en dispense.

L’évaluation de la performance est également indissociable de l’utilisation croissante d’indicateurs bibliométriques. En effet pour pratiquer l’évaluation comparative il faut d’abord définir des critères de comparaison et assigner un score à chacun selon ces critères. On tombe alors dans une confusion car pour évaluer la performance on est amené à évaluer le travail des personnes ou institutions par le biais de leur production ce qui ne va pas sans quelques contradictions. Parmi les indicateurs bibliométriques, on distingue deux principales familles qui s’adressent respectivement aux revues (type impact factor) et individus (type H-index).

Impact Factor

L’impact factor est le quotient du nombre de citations reçues par les articles publiés dans les deux années précédentes divisé par le nombre d’articles publiés au cours de ces deux années (à noter qu’il est également possible de calculer des impact factor à 5 ou 10 ans mais que cette définition à deux ans est la plus répandue). Première contradiction : on évalue un chercheur ou un laboratoire à partir des résultats d’une revue, premier glissement. Quid de l’ « excellent » chercheur qui s’évertue à publier dans une « mauvaise » revue simplement parce qu’historiquement c’est celle de sa communauté ?

Dans un rapport de l’International Mathematical Union (IMU) en coopération avec l’International Council of Industrial and Applied Mathematics (ICIAM) et l’Institute of Mathematical Statistics (IMS) il est bien montré que les citations se répartissent différemment dans le temps selon les revues et les secteurs scientifiques : dans certains cas les citations sont très rapides, dans d’autres un article met un temps conséquent avant d’être cité. C’est en partie une donnée inhérente à chaque domaine scientifique car elle est en lien avec le temps caractéristique des recherches qui y sont menées. L’une des conclusions est que le facteur d’impact doit être associé au « taux de demi-vie », c’est-à-dire au temps nécessaire pour qu’un article voit son nombre de citations diminuer de moitié. Généralement ces deux grandeurs sont inversement corrélées : un facteur d’impact élevé signale une revue dont les articles sont cités avec immédiateté puis globalement « oubliés ».

Par ailleurs, le pourcentage des articles qui contribuent à l’impact factor est généralement faible et on considère que seuls 15% des articles d’une revue contribuent à ce facteur. Par conséquent la grande majorité des articles, non citées dans les 2 ans, « bénéficient » simplement de l’attractivité de quelques uns. On rencontre là une seconde contradiction pointée par le rapport de l’IMU : en affectant une « valeur » supplémentaire à un article publié dans une revue à haut facteur d’impact par rapport à un article dans une revue à faible impact, on réalise le plus souvent une erreur car les probabilités montrent que le second a plus de chances d’être un article cité que le premier (une affaire d’écart type plus important)… Ce dernier élément d’appréciation sur l’impact factor nous amène naturellement à la question de l’évaluation de l’impact factor individuel, autrement dit au fameux facteur H et ses dérivés.

H-index et autres…

Le facteur H a été proposé par Hirsch en 2006. Le facteur H d’un scientifique correspond au nombre de ses publications qui sont citées au moins H fois. Il existe des variantes qui sont censées corriger certains biais du facteur H (les facteurs M, G…). Les critiques du facteur H sont nombreuses (cf rapport de l’IMU bien résumé par J.F Mela ou encore celui de la commission d’évaluation de l’INRIA ) et on se contentera ici de les synthétiser. L’analyse bibliométrique appliquée aux individus est une notion séduisante pour qui veut « comparer » et « classer » les chercheurs mais en répondant à ce besoin par la projection de réalités complexes sur un axe unique elle se révèle une approche simpliste et non pertinente. De plus, en acceptant que les méthodes bibliométriques puissent être sensibles à la qualité, ce « signal » qualité est noyé dans le « bruit » créé par une forte dépendance à d’autres variables dont Franck Laloë et Rémy Mosseri donnent un aperçu non limitatif : « variable Y qui est le style du chercheur (travaille-t-il plutôt seul ou en équipe constituée, est-ce plutôt un pionnier ou quelqu’un qui préfère des domaines déjà relativement à la mode, proche des applications ou non, etc.), de la variable Z qui est son style de publication (est-il plutôt tourné vers les courtes lettres ou les articles de fond, voire les ouvrages ? est-il attiré par les revues dites de prestige, genre Nature ou Science, même si elles sont moins utilisées dans son domaine ?), et enfin W (appartient-il à une école de recherche très reconnue depuis des années, ou a-t-il choisi un petit domaine émergent, etc.). »

Pour en finir avec ce facteur H, il a été proposé par un non spécialiste de la bibliométrie et a connu un succès rapide en raison de la fausse facilité qu’il procure : avoir en trois clics un classement chiffré. Cependant, cet outil qui se prétend méthode d’évaluation n’est pas lui-même passé par une phase d’évaluation de sa pertinence et de sa fiabilité. Finalement, les multiples démonstrations de ses très nombreuses faiblesses devraient suffire à l’écarter de toute procédure d’évaluation sérieuse.

Impact et qualité

Les deux grandeurs bibliométriques envisagées ici (impact factor et H-index) sont des facteurs d’impact calculés sur la base des citations reçues, qui sont utilisés pour évaluer la performance des productions individuelles. C’est là un contresens et une nouvelle contradiction car il est très largement admis que l’impact n’est pas synonyme de qualité. Bien qu’ils soient introduits pour cela, ces indicateurs ne peuvent donc pas prétendre servir de critères pour évaluer la performance et classer des chercheurs

Il est nécessaire ici de rappeler la raison d’être d’une citation, ce qui expliquera en partie pourquoi les mesures d’impact ne peuvent pas être des mesures de la qualité. Pourquoi insère-t-on des citations dans un article ? On peut citer pour apporter des informations contextuelles utiles à la présentation d’une étude, pour raccourcir un propos en renvoyant à la description déjà réalisée de méthodes et techniques, pour appuyer une argumentation sur des résultats obtenus par ailleurs par d’autres équipes, on peut aussi citer un article à des fins polémiques pour discuter de la validité de ses résultats ! On peut préférer citer des articles de revues ou encore des articles sources… Utiliser les citations comme indice de qualité est donc un contresens complet mais c’est aussi dangereux car c’est inciter les scientifiques à modifier leur comportement et leurs façons de travailler en adoptant de nouvelles stratégies de publication dans l’objectif de promouvoir leur carrière et aux dépens de la qualité de la rédaction scientifique et donc de la recherche elle-même.

Il est par ailleurs symptomatique de voir déjà fleurir, sur un mode cynique et humoristique, les recettes qui permettront de s’adapter au mieux à ces nouvelles règles de l’évaluation comparative.

Alors que faire ?

Il faut tout d’abord prendre le temps de la réflexion, définir des objectifs à l’évaluation et à partir de ces objectifs utiliser des outils qui ont prouvé leur fiabilité et leur pertinence. Se méfier des effets de mode et des classements et indicateurs imposés de l’extérieur, dont les objectifs, pour peu qu’on les connaisse clairement, ne sont pas ceux que l’on vise. Les méthodes bibliométriques s’avèrent utiles et riches en information lorsqu’elles sont appliquées à des grands agrégats, c’est-à-dire à l’échelle d’un pays, voire éventuellement d’un établissement. Dans ces conditions, elles arrivent à dégager un signal du bruit de fond généré par les variations importantes constatées au niveau des comportements individuels ou des pratiques disciplinaires. En ce qui concerne l’évaluation des individus, il ne faut pas tomber dans le piège de l’évaluation comparative et des classements. Cette vision réductionniste de l’activité de recherche est dangereuse pour le développement scientifique car elle conduit in-fine à tuer l’originalité et la créativité. Il faut donc se tourner vers une évaluation honnête et sérieuse du travail réalisé. Elle passe inévitablement par une évaluation indépendante, faite par des pairs représentants de la communauté (donc élus) qui prennent le temps de la discussion et d’une écoute attentive. Il semble également nécessaire de découpler l’évaluation de l’attribution de primes ou de crédits budgétaires car elle est alors inévitablement entraînée sur le terrain de l’évaluation comparative des performances et change alors de nature.

[1] Voir par exemple : http://www.lepoint.fr/actualites-ch...

[2] L’évaluation du travail à l’épreuve du réel, Christophe Desjours, 2003 - Ed. INRA - Coll. Sciences en question

[3] Sur le développement de l’évaluation comparative, du ranking ou benchmarking, voir les travaux de Isabelle Bruno : http://ceraps.univ-lille2.fr/fr/che...