25

« Pourquoi la plupart des résultats de recherches scientifiques publiés sont faux »

 « Why Most Published Research Findings Are False”est le titre d’un article d’un épidémiologiste américain, John Ioannidis. Cet article publié en 2005 avait fait grand bruit dans la communauté scientifique. Aujourd’hui encore les statisticiens estiment qu’ils traversent une crise. Je voudrais ici rapprocher cette crise de celle que nous rencontrons avec l’hydroxychloroquine. Depuis le début de l’épidémie, l’hydroxychloroquine alimente une violente controverse. Les autorités sanitaires sont fermement opposées à l’HCQ au point qu’Olivier Véran en avait interdit la prescription l’année dernière au mois de mai. Il a aujourd’hui pour lui les directives de l’OMS. Celle-ci dans une note publiée le 2 mars l’OMS, s’appuyant sur six essais cliniques randomisés, a annoncé dans le British Medical Journal que l’HCQ était déconseillée comme traitement contre la Covid-19.  Il est aussi soutenu par de nombreux chercheurs et médecins hospitaliers. Pour eux l ’affaire est classée : l’HCQ ne marche pas, quelque soient les modalités de prescription, précoces ou tardives. Pourtant défiant les directives gouvernementales, le petit village gaulois de « Massalia » résiste et son grand druide Raoux continue imperturbable à administrer l’HCQ, sa potion magique. Il exhibe des chiffres étonnamment bas de mortalité, et il est suivi par de nombreux disciples….

Il est certain que le climat passionnel qui agite le milieu médical autour de l’HCQ ne donne guère de place à un débat scientifique apaisé. En atteste la plainte de l’ordre contre le professeur Raoult au motif de charlatanisme ! On ne pouvait imaginer un qualificatif plus incongru pour cet homme co-auteur de milliers de publications scientifiques, découvreur de dizaines de bactéries pathogènes, et couronné par le Grand prix de l’Inserm en 2010. J’y voit comme le coup de pied de l’âne de l’Ordre. Certes, la personnalité de Raoult autant par son charisme que son attitude antisystème, attise le conflit plutôt qu’il ne l’apaise.

Il n’est pas question dans ce billet de prendre parti pour ou contre l’HCQ.  Mais de m’étonner d’une telle situation. L’étonnement est le point de départ de toute réflexion philosophique. Pourquoi la vérité scientifique ne parvient pas à frayer son chemin et à nous donner une réponse :  oui ou non la HCQ est-elle efficace ?

La démarche scientifique requise pour donner la réponse à cette question repose sur les études statistiques. Or quand on parcourt internet, on trouve des sites qui colligent des études favorables à l’HCQ et d’autres des études défavorables. Le site hcqmeta.com récence 219 études et prétend que, compte tenu de ces études, la probabilité que l’HCQ soit inefficace est de l’ordre de 1 sur 327 quadrillion (p = 0.0000000000000000031). Un autre site intitulé « #019 la chloroquine ou l’hydroxychloroquine sont-elles efficaces pour prévenir ou traiter l’infection par Covid-19. » rapporte une trentaine d’études négatives…

Ce constat nous renvoie à la question de la légitimité scientifique des statistiques.  Cette question, les statisticiens se la posent eux-mêmes. Ils considèrent qu’il est grand temps de bannir les expressions « statistiquement significatifs » ou « preuve scientifique » et qu’il faut renoncer à considérer l’essai randomisé en double aveugle comme une expérience indépassable. Une expérience seule ne suffit pas et toute métaanalyse est inévitablement biaisée par les biais de publication.

Les statistiques que nous utilisons reposent sur la p-value inventée par Ficher. Cette p-value a permis de gagner en rigueur et en fiabilité dans de nombreuses sciences. La p-value correspond au seuil de 0,01 ou 0,05 à partir duquel une hypothèse peut être validée ou rejetée. Cependant à partir de 2005, date de l’article de Ioannidis s’opposer à la p-value est devenue une position consensuelle chez les statisticiens surtout après une publication dans Nature en mars 2019 signée par 800 statisticiens.  Les statistiques traversent une crise existentielle. Certains vont jusqu’à évoquer une crise des fondements des sciences. Ainsi ils développent un certain nombre d’arguments contre la science par p-value. J’en ai retenu un qui m’a particulièrement impressionné. Il affirme que toute hypothèse vraie sera rejetée une infinité de fois. Je vais tenter d’expliquer cette affirmation telle que je l’ai comprise dans un langage simple. Une hypothèse vraie a une probabilité de 1% d’être rejetée par la méthode scientifique par p-value. Ce taux de 1% d’erreur paraît acceptable. Si on teste une hypothèse vraie en répétant encore et encore l’expérience, les statisticiens démontrent que la probabilité de l’hypothèse vraie décroit exponentiellement vers zéro. Après 69 expériences l’hypothèse vraie aura une probabilité de 50 % de survivre et après 459 expériences celle-ci sera de seulement 1% et à l’infini cette probabilité tend vers zéro. On pourrait rétorquer qu’il semble idiot de répéter encore et encore la même expérience des centaines de fois. C’est vrai sauf qu’en pratique il y a parfois des centaines de groupes de chercheurs différents qui travaillent sur le même sujet ce qui fait vite des centaines d’expériences. Il faut donc s’attendre à des dizaines de rejets de théories vraies. Voilà donc ce que nous apprennent les statisticiens.

Est-ce la raison pour laquelle les études sur notre HCQ donnent des résultats aussi contradictoires ?

Tout cela est bien compliqué alors terminons sur une note d’humour avec Churchill qui disait « Je n’ai confiance que dans les statistiques que j’ai personnellement falsifiées. »

Laurent Vercoustre

25 Commentaires

  1. Bonjour, beaucoup de concepts malmenés dans ce billet…
    Non, la p-value n’est pas le « seuil de 0,01 ou 0,05 à partir duquel une hypothèse peut être validée ou rejetée », et on ne peut pas dire que « une hypothèse vraie a une probabilité de 1% d’être rejetée par la méthode scientifique par p-value » (la p-value ne dit rien sur la véracité d’une hypothèse). DIre que « la probabilité que l’HCQ soit inefficace est de l’ordre de 1 sur 327 quadrillion (p = 0.0000000000000000031) » est un non-sens, la p-value n’est pas une probabilité d’inefficacité.

    Concernant l’argument de la multiplicité des tests, je crois qu’il a été vraiment mal compris : il ne faut pas s’attendre à « des dizaines de rejets de théories vraies » si toutes les études sont négatives au sens du seuil de p-value, il faut en revanche s’attendre à des faux positifs si la présence de tests multiples n’est pas statistiquement corrigée.

    Ce que dit Ioannidis et ce qu’apprend la crise sur la p-value du début des années 2000, c’est surtout que l’idée d’une seule « valeur seuil » pour déterminer si une recherche est positive ou négative n’est pas tenable pour apprécier l’efficacité d’une intervention. Il faut prendre en compte plus d’éléments, notamment la taille de l’effet, l’intervalle de confiance, la qualité du groupe contrôle, la réduction absolue du risque, et d’autres concepts qui font qu’on peut réellement tirer des informations pragmatiques à partir d’essais bien menés. Et c’est ce qui est fait dans le cadre des traitements pressentis contre le covid-19.

  2. « Si on teste une hypothèse vraie en répétant encore et encore l’expérience, les statisticiens démontrent que la probabilité de l’hypothèse vraie décroit exponentiellement vers zéro. »
    En matière de multiplicité des tests, la statistique a aussi ses garde-fous, qui a établi des moyens plus ou moins stringents d’atténuer les effets de la répétition d’un test par le taux de découverte d’hypothèse fausse (« Multiple Testing Correction », Bonferroni, Benjamini & Hochberg,…, ) dans les années 90.

  3. Cher Docteur Vercoustre,

    Vos billets, comme toujours, sont parfaits.

    Sur les questions thérapeutiques, les enjeux économiques et financiers, institutionnels et politiques, sans parler de la course au brevet, de la concurrence entre équipes de chercheurs, de la rentabilité des produits et des entreprises capitalistiques qui brassent des sommes folles, ces enjeux hybrides sont tels que tant qu’on n’a pas réfléchi à ce qui accrédite (= le crédit) une hypothèse (expérimentale) ou une observation (empirique), autrement dit :
    1° non seulement à l’administration de la preuve en médecine: (qu’est-ce) qui fait preuve ?
    2° mais aussi à ce qui marche en effet, soigne (assez ou plutôt) bien voire
    guérit des cohortes de patients…
    on est perdu pour la suite des opérations. Ainsi 99% d’entre nous, tous tant que nous sommes. Nous sommes les 99%.

    À ma connaissance, les meilleurs historiens des sciences à cet égard, pour le grand public, s’appellent Isabelle Stengers ou Philippe Pignarre, mais on pourrait citer tous les thérapeutes sérieux qui ont compris l’irréductible puissance du placebo que les positivites étriqués vont nommé avec dédain pour y cacher toute l’ignorance dans laquelle il se trouve face à ce scandale : il arrive qu’on guérisse en effet pour de mauvais raisons…
    Un seul exemple : une verrue chez un enfant. Elle partira toute seule? Pas toujours. C’est un virus qui l’a produite, pas un phénomène psychologique ou mental. Hé bien, j’en connais plus d’une que nous avons vu partir par des formules du type Ha brakha dabra (« הברכה דברה »), avec faits et gestes digne d’un charlatan en blouse blanche. J’en conclus avec le géomètre Spinoza, dont Damasio estime qu’il avait raison, que « ce que peut le corps, personne jusqu’ici ne l’a déterminé ». En tout cas certainement ni les scientistes, ni les mathématiciens.

    Au plaisir de continuer à vous lire ainsi que le Dr Maudrux.
    S.E.

    • Il est facile de critiquer, en particulier la « p Value » Mais il faut quand même ne pas oublier que les statistiques, comme toutes science progressent par « essai/erreur » et que la médecine n’a pas trouvé mieux jusqu’ici que la méthode expérimentale de Claude Bernard.
      Ayant dirigé et participé comme expert à des essais cliniques, je peux affirmer ( jusqu’à être contredit par une nouvelle hypothèse quantique? ) que les essais randomisés contre placebo constituent un outil essentiel et encore irremplaçable dans l’évaluation d’un médicament.
      Raoult , que je connais depuis 30 ans,
      s’en est affranchi sous le prétexte qu’il y avait urgence à traiter, lors qu’il avait sélectionné des gens jeunes et sans co-morbidités.
      Il a publié plus de 3000 articles sous son nom, certains qu’il n’a pas évidemment pu lire avant leur parution. Il a été interdit de publication dans plusieurs revues de haut niveau pour avoir truqué des résultats, il y a une dizaine d’années.
      Il a été déréférencé par l’ Inserm et le CNRS pour avoir couvert des harcèlements graves dans son IHU. … Je passe sur les soit disant publications de ses résultats avec l’ HCQ, entachées d’une série de biais inacceptables.

      • Il serait judicieux après un post aussi agressif que peu argumenté de signer de son nom et pas avec un pseudo
        Docteur Richard Béracassat – chirurgien orthopédiste retraité

  4. Beaucoup de lecteurs et commentateurs médecins ici, qui comme l’auteur pourront corriger, infirmer ou confirmer ce que j’avance.

    Dans toute science trouver un résultat non conforme à la théorie de départ peut entraîner sa remise en cause.

    Le fait est que les diverses études sur HCQ ou autres traitements, vaccins compris d’ailleurs, sont disparates, nombreuses et souvent difficiles à décrypter.

    Avant l’analyse de la p-value … Quel cadre, quelles limites, quel pourcentage de patients exclus ou perdus de vu, quel âge moyen, quelle hypothèse primaire (mortalité, souvent le plus fiable, ou morbidité, déjà beaucoup plus interprétable), quel contexte local ? etc. qui rendent délicate l’interprétation des valeurs données.

    Encore plus pour une maladie pour laquelle environ 90 % des patients guérissent facilement : avec de tels chiffres la moindre entorse au protocole initial rend une étude non interprétable.

    Quelles que soient les conclusions d’une étude, RCT ds le meilleur des cas, ne pas trouver, pour vous médecins, et pour nous patients (vous compris d’ailleurs) les mêmes résultats devrait jeter un doute.

    J’ai cru comprendre que des médecins en milieu hospitalier avaient essayé, de façon « sauvage » et très empirique les protocoles Raoult et que cela n’avait rien donné du tout, pas de résultat bénéfique. Ce qui signifierait que l’hypothèse est en grande partie à rejeter .. et c’est ce que beaucoup ont fait.

    je crains au vu des différentes courbes vaccination / mortalité Covdi-19 que les vaccins finissent par prendre le même chemin, idem pour les deux premiers réputés plus sûrs et efficaces. Tant mieux si je me trompe !

    En attendant très peu de bruit autour de l’étude coréenne qui avait montré une forte aggravation des formes de Covid 19 si prise d’IPP.

    Il me semble que les plus grands facteurs d’amélioration seraient dans la non aggravation de la maladie, c’en est une piste sérieuse.

    Si par miracle un groupe de médecins réellement indépendants, familiers des études cliniques, de la p-value et autres joyeusetés, pouvait consulter et étudier de ce point de vue les immenses bases de données sécu en France, peut-être que nous aurons d’autres pistes sérieuses de ce genre.

    Merci à Laurent Vercoustre de permettre ce type d’expression.

  5. Plus que la remise en cause de la méthode par p-value, c’est l’utilisation de celle-ci et sa surinterprétation qui est le sujet des différents articles que vous citez. La vraisemblance des données n’est pas a crédence de la théorie. Mais c’est un très long sujet, prendre des raccourcis serait trop tentant.

  6. pour l HCQ, les études divergent, mais le pr raoult et son équipe ont fini par publier:
    en clinique,il convient de reconnaitre avec nos confreres que notre protocole hcq+azt ne change rien sur le nombre de formes graves, sur les hospitalisations,le recours aux soins intensifs,le recours à l oxygenotherapie..
    elle est là la réponse

  7. Des scientifiques critiquent les critères scientifiques. Sans doute la volonté d’obtenir d’autres critères plus fiables. Démarche louable et scientifique
    Rien à voir avec des chercheurs qui passent leur temps dans les médias à injurier ses collègues et qui présente des études nulles d’un point de vue méthodologique, à l’encontre des tous ses travaux qui ont fait sa réputation dans les revues scientifiques qui utilisent les critères de référence.

  8. QUID DU BROME RETARDATEUR DE FLAMME DANS LAIR POLLUE COVID DE L URBAIN POLLUE :QUID DES GOUDRONS DU TABAC DES ESSANCES DU DIESEL DU DIOXYDE DE TITANE DANS LA POUSSIERE DES FREINS A DISQUE RICHE EN TITANE QUID DE LARSENIC DANS LE RIZ PAS LAVE QUID DES PILULES ESTROPROGESTATIVES DES ANTIDEPRESSEURS DES ANTITHYPERTENSEURS DE MILLIARDS DE COMPRIMES QUOTIDIENS INGERES QUI DES CANCERS CHEZ LES FEMMES QUID DES DENTIFRICES ENFANTS? ETUDE? AUCUNE

  9. Analyser la littérature demande une formation méthodologique faite dans les facultés de médecine depuis quelques années. Il faut comprendre les termes simples de la recherche avant de donner un avis. En voici une liste non exhaustive :
    prospectif / rétrospectif
    histoire naturelle des maladies
    comparaison
    perdus de vues
    analyse en intention de traiter
    comparer le protocole avec la publication
    critères de jugement
    critères de substitution
    essais de supériorité et de non-infériorité
    Sensibilité, spécificité, VPP, VPN
    Risque absolu, risque relatif
    NNT / NNH
    Courbes de survie
    Biais
    Signification statistique et pertinence clinique
    Validité interne et externe
    Tests statistiques simples (valeur de P)
    Intervalle de confiance

    De bons livres expliquent cela, et cela permet de ne pas confondre croyances et données probantes. Il faut les deux, mais les données probantes ne se discutent pas, contrairement aux croyances.
    Les revues légitimes publient les données probantes et laissent les comptes de fées aux revues prédatrices et aux bulletins paroissiaux.
    Il est temps que le Quotidien du Médecin rejoigne les journaux légitimes
    Cordialement

  10. Disons qu’il y a deux faces à ce problème. La première c’est la méthodologie expérimentale (experimental design) et la seconde la méthodologie statistique, avec l’inférence causale. On a lu trop souvent dans les controverses récentes que les essais cliniques randomisés étaient un horizon absolument indépassable, alors qu’il en existe des critiques (théoriques et pratiques) de la part de Ioannidis, Glasziou, et Pearl. Quant à la méthodologie statistique, elle a été radicalement transformée par l’informatique, et le niveau requis pour faire passer un article dans une revue correcte n’a plus rien à voir avec les stats d’il y a 20 ans (je parle plus de fondamental que de Clinique). On pourra aussi se référer à l’article de Karl Friston “Ten ironic rules for non-statistical reviewers”.

  11. Cette histoire de l’hcq est l’arbre bienvenue qui cache la forêt. Et qui permet de justifier en prime le numerus clausus continuel puisque la preuve en est donnée que les généralistes ne servent à rien ou simplement à distiller ce que veut l’organisme de la secu…pourtant si ceux là même étaient au contraire incités à se rendre au chevet des malades ils deviendrait evident que soigner le patient et non pas le virus serait statistiquement beaucoup plus libérateur des secteurs hospitalier en matière de covid…un médecin italien a recensé quarante etats différents de la maladie justiciables de protocoles spécifiques au lit du malade. Alors souvent chez certains un malheureux antibio tout récemment autorisé par les autorités alors qu’il était interdit jusqu’àlors est souvent favorable à eviter l’orage en question annoncé ….alors jusqu’où va t’on se laisser dicter nos actions au mépris de l’observation clinique et de notre intuition. Devra t’on vivre avec un seul cerveau gauche pour droitier sous pretexte que l’on aime les chiffres et les écrans par dessus tout ???

  12. Oui, bien entendu, la crédibilité aveugle à la supériorité absolue des instruments statistiques dans le domaine des sciences du vivant vient d’en prendre un rude coup.
    Alors, remontons d’un cran dans la science mère des autres, la physique fondamentale. Celui dit du mur de Planck établissant que les lois concernant le macroscopique ne sont pas les mêmes du monde quantique.
    Un réel à deux vitesses, ça fait boiteux.
    L’observateur modifiant le résultat de ce qu’il observe, cf le chat de Shroedinger à la fois mort et vivant. Voir aussi les chercheurs (de mémoire) qui n’ont jamais réussi à reproduire les expériences fondatrices de Mendel avec les petits pois quand ils avaient en hypothèse que le brave moine inventeur de la génétique avait bidouillé ses résultats .
    Finalement redoutables à court terme, ou salutaires pour un avenir vivable, les effets collatéraux pandémiques.

    • Le Dr Michaut résume exactement la situation. Le reste n’est que bavardage.
      Et je tiens à remercier Laurent pour tout ce qu’il nous a apporté dans ses billets. Il nous a fait réfléchir sur notre humble condition.
      Place donc maintenant aux grands savants qui ignorent que le monde n’est qu’illusion.

Répondre à stordunbeag Annuler la réponse

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec * Pour information, Laurent Vercoustre ne répondra pas aux commentaires anonymes.