Les études précliniques, celles que les scientifiques effectuent avant les tests sur les humains, ne reçoivent pas autant d’attention que les essais cliniques. Pourtant, elles constituent la première étape vers d’éventuels traitements et remèdes. Il est important que les résultats précliniques soient fiables. Lorsqu’ils sont erronés, les chercheurs et chercheuses gaspillent des ressources en suivant de fausses pistes. Pire encore, des résultats incorrects peuvent mener à des essais sur des humains.
En décembre dernier, le Center for Open Science (COS) a publié les résultats inquiétants d’une étude sur la reproductibilité, Reproducibility Project: Cancer Biology, qui a duré huit ans et coûté 1,5 million de dollars américains. En collaboration avec le marché de la recherche Science Exchange, des scientifiques indépendant.e.s ont découvert que les chances de reproduire les résultats de 50 expériences précliniques issues de 23 études publiées de premier plan ne dépassaient pas un tirage à pile ou face.
Des éloges et des controverses ont marqué le projet depuis le début. La revue Nature a applaudi les études de réplication en y voyant « ce qui se fait de mieux dans la pratique de la science ». Mais la revue Science a noté que les réactions de certain.e.s scientifiques dont les études avaient été choisies allaient de « l’agacement à l’anxiété en passant par l’indignation », ce qui a nui aux réplications. Aucune des expériences originales n’a été décrite avec suffisamment de détails pour permettre aux scientifiques de la reproduire, un tiers des auteurs et autrices ont refusé de coopérer, et certain.e.s ont fait preuve d’hostilité lorsqu’on leur a demandé leur collaboration.
Brian Nosek, directeur général du COS, a avancé que ces résultats posent « des défis pour la crédibilité de la recherche préclinique en biologie du cancer ». Reconnaissant tacitement que la recherche biomédicale n’a pas toujours été parfaitement rigoureuse ou transparente, les Instituts nationaux de la santé (NIH) américains, plus grand bailleur de fonds de la recherche biomédicale au monde, ont annoncé qu’ils allaient relever les exigences relatives à ces deux aspects.
Depuis plus de 30 ans, je donne des cours et j’écris sur les bonnes pratiques scientifiques en psychologie et en biomédecine. J’ai évalué un nombre incalculable de demandes de subventions et de manuscrits pour des revues, et je dois dire que cela ne me surprend pas.
Les incitations à faire avancer sa carrière au détriment de la crédibilité scientifique ébranlent les deux piliers d’une science fiable que sont la transparence et la rigueur impartiale. Il arrive trop souvent que les études précliniques proposées – et, étonnamment, les études publiées et évaluées par les pairs – ne suivent pas la méthode scientifique. Et, trop souvent, les scientifiques ne partagent pas leurs données financées par les fonds publics, même lorsque le journal qui les publie l’exige.
Contrôler les biais
De nombreuses expériences précliniques ne prévoient pas de contrôles rudimentaires contre les biais, que l’on enseigne dans les sciences sociales, mais rarement dans les disciplines biomédicales telles que la médecine, la biologie cellulaire, la biochimie et la physiologie. Le contrôle des biais est un élément clé de la méthode scientifique, car il permet aux scientifiques de distinguer les signaux expérimentaux des interférences procédurales.
Le biais de confirmation, c’est-à-dire la tendance à voir ce que l’on souhaite voir, est contrôlé habituellement par ce qu’on appelle la « mise en insu ». Pensez à la procédure à « double insu » des essais cliniques, dans laquelle ni le patient ni l’équipe de recherche ne savent qui reçoit le placebo et qui reçoit le médicament. Dans la recherche préclinique, le fait que les personnes effectuant l’expérimentation ne connaissent pas l’identité des échantillons minimise le risque qu’elles modifient leur comportement, même subtilement, pour favoriser leur hypothèse.
Des différences apparemment insignifiantes, comme le fait qu’un échantillon soit traité le matin ou l’après-midi ou qu’un animal se trouve dans une cage de la rangée supérieure ou inférieure, peuvent influencer les résultats. Ce n’est pas aussi improbable qu’on pourrait le croire. Chaque petit changement dans le micro-environnement, pour l’exposition à la lumière ou la ventilation de l’air, par exemple, peut modifier les réponses physiologiques.
Si tous les animaux qui reçoivent un médicament sont placés dans une rangée et que tous les animaux qui ne le reçoivent pas sont dans une autre rangée, toute différence entre les deux groupes d’animaux peut être due au médicament, à leur emplacement ou à une interaction entre les deux. Vous ne pourriez pas savoir quelle est la vraie raison, et les scientifiques non plus.
Le fait de randomiser la sélection des échantillons et l’ordre de traitement minimise les biais de procédure, rend l’interprétation des résultats plus claire et augmente les chances qu’ils soient reproduits.
De nombreuses expériences de réplication ont été réalisées à l’insu et de manière randomisée, mais on ignore si c’était le cas pour les expériences originales. Tout ce que l’on sait, c’est que pour les 15 expériences sur animaux, une seule parle de randomisation et aucune de mise en insu. Il ne serait pas surprenant qu’un grand nombre d’études n’aient eu recours ni à la randomisation ni à l’insu.
Plan d’étude et statistiques
Selon une estimation, plus de la moitié du million d’articles publiés chaque année repose sur un plan d’étude biaisé, ce qui contribue au gaspillage de 85 % des 100 milliards de dollars américains dépensés chaque année pour la recherche (principalement préclinique).
Dans un article largement diffusé, Glenn Begley, scientifique industriel et ancien chercheur, a indiqué qu’il n’avait pu reproduire les résultats que de six de 53 études universitaires (11 %). Il a énuméré six pratiques de recherche fiables, dont la mise en insu. Les six études qui ont été reproduites avaient toutes suivi ces six pratiques. Les 47 études qui n’ont pas pu être reproduites n’avaient suivi que peu de pratiques ou, dans certains cas, aucune.
Une autre façon de biaiser les résultats est de faire un mauvais usage des statistiques. Comme pour l’insu et la randomisation, on ne sait pas quelles études originales du projet de reproductibilité ont fait un usage abusif des statistiques, en raison de leur manque de transparence. Il s’agit là encore d’une pratique courante.
Un dictionnaire de termes décrit une série de mauvaises pratiques d’analyse des données qui peuvent produire des résultats statistiquement significatifs (mais faux), comme le HARKing (Hypothesizing After the Results are Known ou émettre une hypothèse une fois les résultats connus), le p-hacking (qui consiste à répéter des tests statistiques jusqu’à ce qu’un résultat souhaité se produise) ou le fait de suivre une série de décisions d’analyse dépendantes des données qu’on appelle « garden of forking paths ou jardin aux sentiers qui bifurquent » pour obtenir des résultats publiables.
Ces pratiques sont courantes dans la recherche biomédicale. Des décennies de plaidoyers de la part des méthodologistes et une déclaration sans précédent de l’American Statistical Association demandant à ce qu’on change les pratiques d’analyse des données sont toutefois restées lettre morte.
Un avenir plus rigoureux
Les personnes hostiles à la science ne doivent pas se réjouir de ces résultats. Les réalisations de la science préclinique sont réelles et impressionnantes. Ainsi, des années de recherche préclinique ont conduit à l’élaboration des vaccins à ARNm contre la COVID-19. Et la plupart des scientifiques font de leur mieux dans un système qui récompense les résultats rapides et spectaculaires plutôt que ceux qui sont fiables, mais plus lents.
Cependant, la science est faite par des humains, avec toutes les forces et les faiblesses que cela suppose. Ce qu’il faut, c’est récompenser les pratiques qui génèrent une science fiable et sanctionner celles qui ne le font pas, sans pour autant tuer l’innovation.
La modification des mesures incitatives et l’application de normes sont les moyens les plus efficaces d’améliorer la pratique scientifique. Il s’agit de s’assurer que les scientifiques qui privilégient la transparence et la rigueur plutôt que la rapidité et le tape-à-l’œil puissent réussir. L’expérience a déjà été tentée, avec un succès limité. Cette fois, les choses pourraient être différentes. L’étude Reproducibility Project: Cancer Biology et les changements de politique des NIH qu’elle a suscités pourraient bien constituer l’impulsion nécessaire pour que cela fonctionne.
Robert Nadon est professeur agrégé au Département de la génétique humaine de la Faculté de Médecine de l’Université McGill.
Cet article est republié à partir de The Conversation sous licence Creative Commons. Lire l’article original.