22•Qu’est-ce qu’un bon chercheur ?

22•Qu’est-ce qu’un bon chercheur ?

Épisode 22, Covid-19, juin 2020

Didier Raoult

Cette question s’est récemment posée au sujet un personnage haut en couleur : le docteur Didier Raoult. Depuis quelques mois, on sait à peu près tout de lui. Ce qui m’a séduit chez lui, c’est son côté homme de terrain. Quelqu’un qui se dévoue pour ses malades comme il le fait ne peut pas être foncièrement mauvais. Son côté provocateur aussi. Son discours est clair et il a confiance dans son savoir. C’est ce qui lui permet de rentrer dans le lard de son interlocuteur. Le fait qu’il n’arrête pas de se tripoter la barbichette m’a aussi frappé. Cela dénote qu’il a beaucoup de doutes et de circonspection sur ce que disent ses interlocuteurs. 

Bref, pour mener Didier Raoult en bateau, il faut se lever de bonne heure. Il faut aussi s’élever à sa hauteur. Ce qui est loin d’être évident. Car il a placé la barre très haute, le bougre. Il est par exemple titulaire de 25 prix nationaux et internationaux depuis 2002. Vous rétorquerez que les prix, c’est décerné par les collègues. Mis à part le prix Nobel qui est très difficile à avoir, cela peut ne pas signifier grand-chose. 

Critères de classement

Comment donc arriver à classer les scientifiques de manière objective en fonction de leurs mérites et de la qualité de leur recherche ? Jusqu’en 2005, on pouvait utiliser 5 types de critères :

– Le nombre total de papiers publiés P. C’est une bonne mesure de la productivité scientifique. En revanche, il ne tient absolument aucun compte de l’importance ou de l’impact des papiers.

– Le nombre total de citations C dans la littérature. Ce nombre mesure l’impact de sa recherche sur les autres chercheurs. Le biais est ici la présence d’un petit nombre de papiers très cités où la personne apparaît à côté de multiples co-auteurs. L’autre problème est le poids démesuré accordé aux articles de revues. Ces derniers sont plus souvent cités que les  papiers qui décrivent une recherche originale et novatrice.

– Le taux de citations par papier x = C/P. Il permet de comparer des chercheurs ayant des âges différents. Le biais est qu’il privilégie une faible productivité scientifique P.

– Le nombre de papiers jugés « significatifs » S. Ici l’on définit un seuil en deçà duquel les papiers publiés sont tout simplement ignorés. On évite ainsi les biais précédents. Il reste cependant un certain arbitraire lié au choix  du seuil qui dépend fortement de l’âge du chercheur évalué.

  • Le nombre de citations pour chacun des q papiers les plus cités. Ici aussi, le fait que le choix du seuil q est parfaitement arbitraire introduit un facteur totalement aléatoire.

Indice de Hirsch

Pour minimiser tous ces biais, il a été proposé en 2005 de calculer un indice h. Cet indice, dit de Hirsch, divise le nombre de papiers publiés par un individu en deux groupes. Un premier groupe est formé par tous les papiers qui ont été cités au moins h fois depuis leur publication. Le deuxième groupe est formé par tous les papiers qui n’ont pas été cités au moins h fois. Selon ce critère facile à évaluer, il devient possible de comparer les chercheurs de même âge et travaillant dans le même domaine entre eux. Celui ayant l’indice h le plus élevé présente a priori une recherche de meilleure qualité.

Or, l’excellence suprême d’un chercheur est consacrée par l’obtention d’un prix Nobel. On a ainsi pu constater que pour les sciences physiques l’indice h pour obtenir un prix Nobel allait de 22 à 79. De plus, 84 % des récipiendaires avaient un indice h au moins égal à 30. Le gros des troupes se situe quant à lui dans la zone 35 ≤ h ≤ 39.

Autres indices

Le problème de l’indice h est qu’il ne permet de comparer que des scientifiques ayant approximativement le même âge. De plus, cet indice est insensible aux publications très souvent citées ou aux publications jamais citées. D’où un autre indice hm = (C2/P)1/3, qui corrige ce défaut. 

Pour comparer des chercheurs d’âge différents, on peut prendre le quotient m = h/n. Ici, n désigne le nombre d’années de recherche n. Dans ces conditions, un chercheur qui a eu une activité scientifique normale aura m ≈ 1. Les chercheurs ayant 1.0 ≤ m < 2.0 ont une activité au-dessus de la moyenne. L’excellence est obtenue dès que 2.0 ≤ m < 3.0. Au-delà de m = 3.0, il s’agit à coup sûr de personnalités tout à fait exceptionnelles. 

Ainsi, pour les prix Nobel de physique on a trouvé une valeur m moyenne de 1,14 pour une gamme allant de 0 ,47 à 2,19. Il y a quand même 49% des prix Nobel qui ont un indice m < 1.  En effet, beaucoup de prix Nobel sont obtenus longtemps après la période de productivité maximale. Donc contrairement à l’indice h qui ne peut jamais diminuer, l’indice m est d’autant plus bas que la personne est plus âgée.

Pourquoi des indices ?

En fait le gros intérêt des indices h, hm ou m, est de savoir si quelqu’un qui se fait appeler « professeur » au sens académique du terme a une activité scientifique à la hauteur du rang qu’il affiche. Ces indices sont bien évidemment de la plus haute utilité pour le grand public. Car ce dernier est très souvent dans l’incapacité totale de juger de la pertinence d’une recherche scientifique. Pour voir à quel point les médias manquent de sérieux, cherchez les indices h, hm ou m de Didier Raoult.

Vous risquez d’avoir du mal. Car beaucoup de soi-disant « experts » n’ont aucun intérêt à publier leurs indices. En effet, s’ils sont trop bas, cela les disqualifierait d’office de tout débat scientifique. Heureusement, on sait que l’indice h croît de manière approximative comme la racine carrée du nombre total de citations C. On sait aussi qu’il varie et varie de manière linéaire avec le nombre de publications P. Il est impossible d’avoir un indice h élevé sans publier de manière régulière un nombre important de publications très souvent citées par ses pairs.

Pour obtenir une valeur (h+1) il est nécessaire qu’un chercheur obtienne (2×h+1) citations supplémentaires. Autrement dit, plus la valeur de h est grande, plus il faut de citations pour passer à la valeur de h immédiatement supérieure. Ainsi, pour passer de h = 4 à h = 5, neuf citations supplémentaires suffisent. Tandis que pour passer de h = 25 à h = 26, il en faudra au moins cinquante et une.  

Bases de données

Ces indices dépendent bien sûr de la base de données. La base de donnée « Web of Science » (Publons ou WoS) couvre plus de 12 000 revues scientifiques, ce nombre montant à 22 000 pour la base de donnée Scopus. Par contre le moteur de recherche « Google Scholar » (GS) couvre tout type de citations : journaux, livres, comptes rendus de conférences et toute autre activité considérée comme « académique ». L’indice h affiché par Google Scholar sera donc toujours supérieur à celui affiché par Scopus ou WoS.

On a aussi pu constater que l’indice h moyen des chercheurs anglophones était de 30,4 pour GS contre 16,8 pour Scopus et 13,5 pour WoS. Par contre, ces mêmes indices pour les chercheurs non-anglophones sont 26,3 (GS) contre seulement 1,7 pour WoS ou Scopus. Il en ressort que l’indice-h affiché par GS est plus honnête et équitable vis-à-vis de nationalité du chercheur que ceux affichés par Scopus ou WoS. Ces derniers favorisent en effet outrageusement la communauté anglophone.

Le meilleur microbiologiste au monde ?

On peut donc savoir si Didier Raoult est vraiment aussi bon qu’il le prétend. Car, dans une vidéo du 26 février, il montre qu’il est le meilleur expert médical au monde dans la catégorie « maladies infectieuses ». Il utilise pour cela une base de donnée «ExpertScape » qui se base sur une sélection de 19 278 papiers médicaux publiés depuis 2010. C’est très peu en rapport des trois bases précédemment citées. Un truc qui fait tiquer (voir figure), c’est que son affiliation universitaire est, elle, en vingt-deuxième position. Voyons ce que donnent les autres bases de données. 

Les indice de Didier Raoult

Pour Google Scholar (https://scholar.google.fr/citations?user=n8EF_6kAAAAJ&hl=fr), j’ai trouvé P = 2 985 et C = 154 127 avec h = 178 pour n = 37 ans de recherches (1983-2020). Cela nous donne C/P = 52, hm = 200 et m = 4,8. N’oublions pas aussi que ces indices dépendent de la discipline. Voici le rapport moyen du nombre total de citations normalisé par rapport aux mathématiques :

Comparaison entre disciplines

Mathématiques (1) < Technologie (5) < Biologie (8) < Sciences de la terre ou de l’espace (9) < Sciences sociales (13) < Chimie (15) < Physique (19) < Médecine (78).

Les mathématiques sont prises ici comme référence car c’est dans ce domaine que l’on publie le moins.

Raoult, futur prix Nobel ?

Or, on a vu que la valeur moyenne de l’indice m d’un prix Nobel de physique était 1,14. On s’attend donc pour un prix Nobel de médecine à avoir m =1,14×√(78/19)  = 2,3. Didier Raoult est donc clairement dans la course, et il le sait. Ceci explique évidemment son attitude condescendante par rapport à ses détracteurs. Car, rappelons que pour un biologiste « standard » la fourchette d’indice h peut aller de 18 à 135. On sait d’autre part que le meilleur physicien peut atteindre h = 110. Le « meilleur » médecin pourra donc aller jusqu’à h = 110×√(78/19) = 222. Aucun doute possible, Didier Raoult est un bon. Certains diraient même trop bon. Car il est très difficile de dépasser m = 3,0 alors que Didier Raoult, lui, caracole à m = 4,8. 

Il y a donc un truc qui cloche. Ce truc, c’est qu’entre 2012 et 2013 il a publié en moyenne un papier tous les deux jours. Or, on sait que la seule manière de faire cela est de mettre son nom sur tout ce qui sort d’un institut que l’on dirige. C’est la bonne vieille méthode soviétique. Donc cela relativise son palmarès, vraiment hors nomes. 

Et moi, et moi, et moi…

Au fait, qui suis-je pour analyser ainsi la carrière de ce dieu de la microbiologie ? Voici mon propre palmarès : P = 144, C = 10 644, h = 35 pour n = 39 ans de recherches (1981-2020). Cela donne C/P = 74, hm = 92 et m = 0,9. Or, on sait que les 1 % des meilleurs chimistes au monde ont C > 3 000. Chic, je fais partie de ce club. 

Mais, je ne suis pas médecin mais chimiste. D’où des indices corrigés par un facteur √(78/15) = 2,28 si je veux me comparer à notre star nationale.

P = 328, C = 10 644×(78/15)  = 55 350; h = 80; C/P = 169; hm = 210 et m = 2,0.

Une autre manière de me comparer à Didier Raoult est de ne prendre qu’un seul article. Celui qui est a été le plus cité durant toute une carrière. Pour Didier Raoul, c’est un article de 2009 avec 1650 citations. Pour moi c’est un article de 1988 (mon travail de thèse) avec 2 598 citations. Toutefois, cela c’est pour une thèse en chimie. Si j’étais médecin, je pourrais prétendre à un taux de citations de 2 598×2,28 ≈ 5 900.

Conclusion

Didier Raoult est vraiment un chercheur hors norme, du moins selon des critères académiques réputés objectifs. Toutefois, le fait qu’il dirige un institut de plus de 800 personnes fausse un peu le jeu. Doit-on pour autant le traîner dans la boue comme l’on fait certains de ses collègues ? Il faudrait pour cela que ses détracteurs affichent leurs indices de performance académique comme je l’ai fait ici. Bien sûr, ils n’oseront pas le faire. Car leur palmarès académique risque d’apparaître minuscule par rapport à celle du « druide ». C’est pour cela qu’ils affirment à longueur de journée que l’on sait quasiment rien sur cette maladie. Eux, sûrement, mais Didier Raoult lui en connait un bout sur le sujet.

Alors taisons-nous et écoutons en toute humilité ce grand chercheur en microbiologie. Critiquons-le si, d’aventure, il se trompe. Admettons, toutefois, que pour la fin de l’épidémie, il a vu juste. Ce n’est pas moi qui m’en plaindrais.

Par Marc HENRY

Leave a Reply

Your email address will not be published.