De la science moderne - Stanislas BERTON

“La science, c’est la croyance dans l’ignorance des experts.”

Extraits de l’article d’Adam Mastroianni publié le 13 décembre 2022 sur Substack sous le titre « The rise and fall of peer-review ». Traduit de l’anglais par Stanislas Berton.

Au cours des soixante dernières années, la science a mené une expérience sur elle-même. Cette expérience était assez mal conçue, elle ne comportait pas de facteur aléatoire ou de groupe témoin. Personne n’était responsable et personne n’effectuait des évaluations régulières. Et pourtant, c’était l’une des plus grandes expériences jamais réalisées et celle-ci impliquait chaque scientifique de la planète.

La plupart des gens n’avaient pas conscience de faire partie d’une expérience. Beaucoup d’entre eux, moi compris, n’étaient pas nés quand l’expérience a commencé. Si nous avions remarqué ce qui se passait, peut-être aurions-nous exigé un niveau minimum de rigueur scientifique. Il est possible que personne n’ait soulevé d’objections parce que la validité de l’hypothèse apparaissait comme une évidence : la science se portera mieux si quelqu’un vérifie chaque article de recherche et rejette ceux qui ne satisfont pas certains critères. Ce processus fut appelé « l’évaluation par un comité de lecture » (peer-review, littéralement évaluation par les pairs ).

[…]

Après la seconde guerre mondiale, les gouvernements se mirent à investir des sommes colossales dans la recherche et ils convoquèrent des chercheurs pour s’assurer qu’ils ne gaspillaient pas tout cet argent dans des projets fumeux. Ce financement donna naissance à un véritable déluge d’articles scientifiques. Des revues qui avaient eu autrefois des difficultés à remplir leurs pages avaient désormais des difficultés à faire le tri parmi tous les articles proposés. Évaluer les articles avant leur publication, chose assez rare jusqu’aux années 60, devint une pratique de plus en plus courante. Puis, elle devint universelle.

Aujourd’hui, la plupart des revues scientifiques font appel à d’autres scientifiques pour évaluer les articles et ceux qui ne plaisent pas à ces évaluateurs sont rejetés. Vous pouvez toujours écrire à vos amis à propos de vos recherches mais les comités de recrutement ou d’attribution des bourses se comportent comme si la seule science existante était celle publiée dans les revues scientifiques avec comité de lecture. Tel est la grande expérience qui est conduite depuis six décennies.

Nous avons obtenu les résultats : cette expérience est un échec.

Beaucoup d’argent pour rien

L’évaluation par comité de lecture fut un investissement aussi colossal que coûteux. D’après une estimation, les scientifiques y passent collectivement l’équivalent de 15 000 années de travail par an. Le passage d’un article à travers le système d’évaluation peut prendre des mois ou des années, ce qui représente un temps considérable quand vous êtes en train de chercher à résoudre le problème du changement climatique ou de guérir le cancer. Et les universités dépensent des millions pour avoir accès aux revues scientifiques, quand bien-même l’essentiel de la recherche est financé par les contribuables et que pas un centime de tout cet argent n’arrive dans la poche des auteurs ou des évaluateurs.

Les gros investissements doivent avoir de grosses retombées. Si vous dépensez cent millions d’euros pour l’enseignement, vous êtes en droit d’espérer que cette dépense aura eu un impact positif sur les élèves. Si vous revenez quelques années plus tard et que vous demandez dans quelle mesure vos cent millions ont permis d’améliorer les choses et que tout le monde vous répond : « euh, on n’est pas vraiment sûr de l’impact que cela a eu et nous sommes furieux que vous osiez poser la question », vous seriez vraiment très en colère. De la même manière, si les comités de lecture ont vraiment amélioré la science, cela devrait se voir et il y aurait de quoi être mécontent si ce n’était pas le cas.

Et ce n’est pas le cas. Dans de nombreux domaines, la productivité de la recherche a été stagnante ou en déclin depuis des décennies et l’évaluation par comité de lecture n’a pas eu d’impact sur cette tendance. Les nouvelles idées échouent à remplacer les anciennes. De nombreux résultats passés par le processus de « peer-review » ne peuvent pas être répliqués et beaucoup d’entre eux sont tout simplement faux. Quand vous demandez à des scientifiques d’évaluer les découvertes du 20ème siècle en physique, médecine ou chimie qui ont obtenu des prix Nobel, ils déclarent que celles qui ont été faites avant le « peer-review » sont aussi bonnes voire meilleures que celles qui sont venues après. D’ailleurs, vous ne pouvez pas leur demander d’évaluer les découvertes nobélisées entre 1990 et 2000 car il n’y en a tout simplement pas assez.

[…]

Post mortem

Qu’est-il passé ?

Voici une question simple : est-ce que le processus d’évaluation par comité de lecture fonctionne comme prévu ? Est-ce qu’il permet de détecter la recherche de mauvaise qualité et l’empêcher d’être publiée ?

Ce n’est pas le cas. Des scientifiques ont mené des études consistant à ajouter des erreurs aux articles de recherche, de les envoyer aux évaluateurs et de mesurer combien d’erreurs ceux-ci détectent. Quand leurs performances sont mesurées, les évaluateurs obtiennent des résultats calamiteux. Dans une étude, les évaluateurs n’ont détecté que 30 % des erreurs les plus graves, dans une autre 25 %, et dans une troisième, 29 %. Il s’agissait d’erreurs très graves telles que « cet article prétend utiliser un méthode de contrôle aléatoire mais ce n’est pas le cas » et « quand vous observez les graphiques, il est évident qu’il n’y a aucun effet » ou encore « les auteurs tirent des conclusions qu’aucune donnée ne vient soutenir. » La plupart des évaluateurs n’ont absolument rien vu.

En fait, nous avons beaucoup de preuves concrètes que le processus de « peer-review » ne fonctionne pas : des articles de recherche bidons sont publiés tous les jours que Dieu fait. Si les évaluateurs faisaient leur travail, il y aurait beaucoup d’histoires du type « Le professeur Cornelius Toutbidon a été licencié après avoir publié une étude truquée dans une revue scientifique. » mais nous n’entendons jamais des histoires de ce genre. Au contraire, presque toutes les histoires concernant la fraude scientifique commencent avec la validation de l’article et sa publication. Suite à celle-ci, un bon samaritain -souvent quelqu’un qui travaille dans le même laboratoire que l’auteur !- détecte un problème et se met à enquêter. C’est ce qui s’est passé pour cet article sur la malhonnêteté qui a visiblement utilisé des données fictives (suprême ironie), ou bien ces types qui ont publié des dizaines, voire des centaines d’articles bidons, sans parler de ce champion toutes catégories :

Wait a second, these are not real error bars … the author literally just put the letter “T” above the bar graphs 😭 pic.twitter.com/KKtTGRHFaw
— Josemari Feliciano (@jmtfeliciano) November 28, 2022

Pourquoi les évaluateurs n’arrivent pas à détecter les erreurs et les falsifications les plus grossières ? Une des raisons est qu’ils ne regardent jamais les données brutes utilisées par les articles qu’ils évaluent, alors que c’est justement l’endroit où il est le plus probable de trouver la majorité des erreurs. La plupart des revues n’exigent pas que vous rendiez vos données publiques. Vous êtes censé les communiquer « sur demande » mais la plupart des auteurs ne le font pas. C’est ainsi que l’on se retrouve avec des situations dignes de sitcom où 20 % des articles scientifiques sur la génétique contiennent des données totalement inutiles car Excel a auto-corrigé les noms des gènes en mois et années.

(Lorsqu’un rédacteur en chef d’une revue a demandé aux auteurs de communiquer les données brutes après avoir envoyé leurs articles à sa revue, la moitié d’entre eux ont décliné et ont rétracté leur publication. Pour l’éditeur, cela suggère «la probabilité que les données brutes aient été totalement inventées »)

[…]

« Comité de lecture », nous ne t’avons jamais pris au sérieux

Il y a une autre façon de voir si le processus d’évaluation par comité de lecture fonctionne : a t’il vraiment gagné la confiance des scientifiques ?

Les scientifiques disent souvent qu’ils prennent le processus de « peer-review » très au sérieux. Mais la plupart des gens disent souvent des choses qu’ils ne pensent pas comme « heureux de vous voir » ou « je ne te quitterai jamais ». Si on regarde ce que font vraiment les scientifiques, il est clair qu’ils ne font pas grand cas du processus d’évaluation par comité de lecture.

Premièrement, si les scientifiques prenaient vraiment le processus de « peer review » au sérieux, ils prendraient en compte les retours et réécriraient l’article quand celui-ci est rejeté. Au lieu de ça, ils se contentent de publier le même article dans une autre revue. C’est une des premières choses que j’ai appris en tant que jeune psychologue lorsque ma responsable de thèse m’a expliqué qu’un « important facteur stochastique » jouait dans la publication (traduction : c’est totalement aléatoire, mec). Si ça ne marche pas avec la première revue, essayez avec une autre. Selon elle, être publié c’était comme jouer à la loterie et la meilleure façon de gagner était de bourrer l’urne avec un maximum de billets. Quand des scientifiques sérieux et réputés affirment que le prétendu système de fact-checking scientifique ne vaut pas mieux que le hasard, c’est vraiment que quelque chose ne tourne pas rond.

Deuxièmement, une fois que l’article a été publié. Les évaluations sont détruites. Quelques revues les publient, la plupart ne le font pas. Tout le monde se fiche des évaluations ou des modifications faites par les auteurs en retour, ce qui suppose que personne ne prend les évaluations au sérieux.

Et troisièmement, les scientifiques prennent au sérieux des travaux qui n’ont pas été validés par un comité de lecture sans trop se poser de questions. Nous lisons des « preprints », des articles de travail, des posts sur des blogs et aucun d’entre eux n’ont été publiés dans des revues à comité de lecture. Nous utilisons les données de Pew, Gallup (NDT : instituts de sondage américains) et du gouvernement, qui n’ont pas non plus été évaluées. Nous assistons à des conférences où des gens parlent de projets non-évalués et personne ne se tourne vers son voisin pour lui dire : « C’est vraiment très intéressant, j’ai vraiment hâte que ça passe dans une revue à comité de lecture afin de savoir si c’est vrai. »

[…]

« Comité de lecture »: mieux que rien

L’évaluation par comité de lecture ne fonctionne pas et le système ne peut probablement pas être sauvé. Mais c’est toujours mieux d’avoir un peu de contrôle que pas du tout, non ?

N’importe quoi.

Imaginez que vous découvriez que la méthode des services d’hygiène pour inspecter la viande est d’envoyer un gars (Robert) pour renifler la viande et dire si ça sent bon ou pas. Et si la viande de bœuf passe le test du reniflage, elle reçoit une certification « inspectée par les services d’hygiène ». Si les choses se passaient ainsi, je pense que vous seriez furieux. Il est possible que Robert trouve des morceaux de viande avariée mais beaucoup de pièces dangereuses pour la santé risquent de ne pas être détectées. Un mauvais système est pire que rien parce qu’il fait croire aux gens qu’ils sont en sécurité alors que ce n’est pas le cas.

C’est exactement ce que notre système d’évaluation par comité de lecture fait et c’est dangereux.

[…]

La science doit être libre

Pourquoi le processus d’évaluation par comité de lecture nous a t’il semblé raisonnable en premier lieu ? Je pense que nous avons une fausse idée de la façon dont la science fonctionne. Nous traitons la science comme un problème de maillon-faible dans lequel le progrès dépend de la qualité de votre plus mauvais travail. Si vous croyez en la science de maillon faible, vous pensez qu’il est très important d’attaquer les idées fausses à la racine, et, idéalement, de les empêcher d’être publiée en premier lieu. Ce n’est pas grave si de bonnes idées sont éliminées au passage parce qu’il est vital de se débarrasser de tout ce qui ne tient pas la route.

Sauf que la science est un problème de maillon fort : le progrès dépend de la qualité de votre meilleur travail. Les meilleures idées ne s’imposent pas toujours immédiatement mais elles finissent par triompher parce qu’elles sont plus utiles.

[…]

Si cette conception vous inquiète, je vous comprends. Si nous laissons les gens dire ce qu’ils veulent, ils diront parfois des choses fausses et cela peut sembler effrayant. Mais à l’heure actuelle, nous n’empêchons pas vraiment les gens de dire des choses fausses, nous faisons juste semblant. En réalité, il nous arrive même parfois de donner notre bénédiction à des mensonges via un gros autocollant sur lequel il est écrit : « ÉVALUÉ PAR UNE REVUE SCIENTIFIQUE PRESTIGIEUSE » et ces étiquettes sont très difficiles à enlever. C’est bien plus effrayant.

[…]

Que faire ?

[…]

Que devrions-nous faire ? Et bien le mois dernier, j’ai publié un article, c’est à dire que j’ai mis en ligne un PDF sur Internet et je l’ai écrit sans jargon pour que tout le monde comprenne. J’ai été totalement transparent et j’ai même avoué que j’avais oublié pourquoi j’avais fait telle étude. J’ai ajouté de l’humour parce que personne n’était là pour me dire de ne pas le faire. J’ai mis à disposition du public toutes les données, le code et les éléments de l’étude. Je me suis dit que si je passais pour un crétin, personne ne le remarquerait et qu’au moins, je m’étais bien amusé en faisant ce qui me semblait être un travail valable.

Avant même que j’ai pu parler de ce travail, des milliers de gens l’avaient déjà trouvé, lu et retweeté.

J’ai reçu des critiques très constructives de la part d’inconnus. Des professeurs réputés m’ont envoyé des idées. La radio NPR a voulu m’interviewer. Mon article a désormais plus de vues que mon dernier article publié dans la prestigieuse revue à comité de lecture Proceedings of the National Academy of Sciences. Et j’ai l’intuition que beaucoup de gens ont lu l’article jusqu’à la fin car les derniers paragraphes ont suscité de nombreux commentaires. Alors, je suppose que j’ai fait quelque chose qui a plutôt bien marché.

Je ne sais pas à quoi ressemblera le futur de la science. Peut-être que nous rédigerons des articles interactifs dans le méta-verse ou que nous téléchargerons les données brutes directement dans notre cerveau ou que nous chuchoterons nos découvertes sur le dance-floor lors de rave-parties. Dans tous les cas, ça sera toujours mieux que ce que nous avons fait au cours des soixante dernières années. Et pour y arriver, nous devons tous faire ce que nous savons faire le mieux : expérimenter.

Notes du traducteur :

1) L’échec de la science moderne fondée sur le processus de « peer-review » pose la question plus large des sources et des processus pouvant être considérés comme fiables dans la diffusion du savoir et l’acquisition de connaissances nouvelles. A bien des égards, mon propre travail, notamment à travers ma série d’essais « L’Homme et la Cité » et mon site internet, vise à apporter une réponse à cette question doublée d’un exemple concret d’une approche alternative appliquée aux sciences humaines et politiques. A moyen-long terme, le modèle universitaire et scientifique actuel est condamné à disparaître et beaucoup de gens vont découvrir qu’ils ont investi beaucoup de temps et d’efforts dans un système aussi inefficace que corrompu. Dans cette période de transition, la notion clé est celle de la confiance : a qui avez-vous décidé de vous fier et dans quelle mesure cette confiance repose sur une adéquation entre les modèles explicatifs proposés et le monde réel ?

2) L’opération Q, faussement appelé Qanon par les médias, constitue un exemple concret d’un phénomène important totalement ignoré par la plupart des analystes politiques. Quoi que l’on pense de son contenu ou de son orientation idéologique, l’opération Q représente un événement majeur à la fois sur le plan politique (trumpisme) sociologique (les anons), militaire (guerre de l’information), psychologique (ingénierie sociale) et géopolitique (guerre contre le mondialisme). Nombre d’éléments communiqués dès 2017 par cette opération se sont d’ailleurs révélées cruciaux pour comprendre certains bouleversements géopolitiques majeurs des années 2020 ( changement de politique en Arabie Saoudite par exemple). Malgré cela, l’opération Q continue d’être considérée, y compris par une partie des dissidents, comme une simple “théorie du complot” indigne d’étude ou d’analyse.

Pour aller plus loin :

What is science? (Richard Feynman)

De la rationalité

De l’intellectuel-Mais-Idiot (Taleb)

Le futur n’aura pas lieu (Vertumne)

Erreurs dans une majorité de publications scientifiques

L’empire du mensonge (Geddes)

De l’origine abiotique du pétrole