Étapes pour éviter la surutilisation et l'utilisation abusive de l'apprentissage automatique dans la recherche clinique

Nouvelles

MaisonMaison / Nouvelles / Étapes pour éviter la surutilisation et l'utilisation abusive de l'apprentissage automatique dans la recherche clinique

Mar 07, 2023

Étapes pour éviter la surutilisation et l'utilisation abusive de l'apprentissage automatique dans la recherche clinique

Nature Medicine tome 28,

Nature Medicine volume 28, pages 1996–1999 (2022)Citer cet article

28 000 accès

11 Citations

291 Altmétrique

Détails des métriques

Les algorithmes d'apprentissage automatique sont un outil puissant dans le domaine de la santé, mais ils ne fonctionnent parfois pas mieux que les techniques statistiques traditionnelles. Des mesures doivent être prises pour s'assurer que les algorithmes ne sont pas surutilisés ou mal utilisés, afin d'apporter un réel bénéfice aux patients.

Les performances médiocres de nombreux systèmes d'apprentissage automatique (ML) dans le domaine de la santé ont été bien documentées1,2. Dans le domaine de la santé, comme dans d'autres domaines, les algorithmes d'IA peuvent même perpétuer des préjugés humains tels que le sexisme et le racisme lorsqu'ils sont formés sur des ensembles de données biaisés3.

Compte tenu de l'adoption rapide de l'intelligence artificielle (IA) et du ML dans la recherche clinique et de leur impact accéléré, la formulation de lignes directrices4,5 telles que SPIRIT-AI, CONSORT-AI et, plus récemment, DECIDE-AI pour réglementer l'utilisation du ML dans la recherche clinique ont permis de combler un vide réglementaire.

Cependant, ces directives de recherche clinique concernent généralement l'utilisation du ML ex post facto, après que la décision a été prise d'utiliser une technique de ML pour une étude de recherche. Les directives ne posent pas de questions sur la nécessité ou la pertinence de la technique d'IA ou de ML dans le cadre des soins de santé.

Au début de la pandémie de COVID-19, avant l'adoption généralisée de tests fiables au point de service pour détecter le SRAS-CoV-2, un domaine de recherche très actif impliquait le développement d'algorithmes de ML pour estimer la probabilité d'infection. Ces algorithmes ont basé leurs prédictions sur divers éléments de données capturés dans les dossiers de santé électroniques, tels que les radiographies thoraciques.

Malgré leurs résultats de validation initiaux prometteurs, le succès de nombreux réseaux de neurones artificiels entraînés sur les radiographies pulmonaires n'a en grande partie pas été reproduit lorsqu'il est appliqué à différents contextes hospitaliers, en partie parce que les modèles n'ont pas réussi à apprendre ou à comprendre la véritable pathologie sous-jacente du COVID-19. Au lieu de cela, ils ont exploité des raccourcis ou des associations fallacieuses qui reflétaient des variations biologiquement sans signification dans l'acquisition d'images, telles que des marqueurs de latéralité, le positionnement du patient ou des différences de projection radiographique6. Ces algorithmes ML n'étaient pas explicables et, tout en semblant être à la pointe de la technologie, étaient inférieurs aux techniques de diagnostic traditionnelles telles que la RT-PCR, obviant à leur utilité. Plus de 200 modèles de prédiction ont été développés pour le COVID-19, certains utilisant le ML, et pratiquement tous souffrent de rapports médiocres et d'un risque élevé de biais7.

Le terme "surutilisation" fait référence à l'adoption inutile de techniques d'IA ou de ML avancées là où des méthodologies alternatives, fiables ou supérieures existent déjà. Dans de tels cas, l'utilisation de techniques d'IA et de ML n'est pas nécessairement inappropriée ou malsaine, mais la justification d'une telle recherche est peu claire ou artificielle : par exemple, une nouvelle technique peut être proposée qui ne fournit aucune nouvelle réponse significative.

De nombreuses études cliniques ont utilisé des techniques de ML pour obtenir des performances respectables ou impressionnantes, comme le montrent les valeurs d'aire sous la courbe (AUC) comprises entre 0,80 et 0,90, voire > 0,90 (Encadré 1). Une AUC élevée n'est pas nécessairement une marque de qualité, car le modèle ML peut être sur-ajusté (Fig. 1). Lorsqu'une technique de régression traditionnelle est appliquée et comparée aux algorithmes ML, les modèles ML plus sophistiqués n'offrent souvent que des gains de précision marginaux, présentant un compromis discutable entre la complexité et la précision du modèle1,2,8,9,10,11,12. Même des AUC très élevées ne sont pas des garanties de robustesse, car une AUC de 0,99 avec un taux d'événements global <1 % est possible, et conduirait à prédire correctement tous les cas négatifs, alors que les quelques événements positifs ne l'étaient pas.

Étant donné un ensemble de données avec des points de données (points verts) et un effet réel (ligne noire), un modèle statistique vise à estimer l'effet réel. La ligne rouge illustre une estimation proche, tandis que la ligne bleue illustre un modèle ML surajusté avec une dépendance excessive aux valeurs aberrantes. Un tel modèle peut sembler fournir d'excellents résultats pour cet ensemble de données particulier, mais ne fonctionne pas bien dans un ensemble de données différent (externe).

Il existe une distinction importante entre une amélioration statistiquement significative et une amélioration cliniquement significative des performances du modèle. Les techniques d'apprentissage automatique offrent sans aucun doute des moyens puissants pour traiter les problèmes de prédiction impliquant des données avec des relations non linéaires ou complexes de grande dimension (tableau 1). En revanche, de nombreux problèmes de prédiction médicale simples sont intrinsèquement linéaires, avec des caractéristiques qui sont choisies parce qu'elles sont connues pour être de bons prédicteurs, généralement sur la base de recherches antérieures ou de considérations mécanistes. Dans ces cas, il est peu probable que les méthodes de BC apportent une amélioration substantielle de la discrimination2. Contrairement au contexte d'ingénierie, où toute amélioration des performances peut améliorer le système dans son ensemble, de modestes améliorations de la précision des prédictions médicales sont peu susceptibles d'entraîner une différence dans l'action clinique.

Les techniques de ML doivent être évaluées par rapport aux méthodologies statistiques traditionnelles avant d'être déployées. Si l'objectif d'une étude est de développer un modèle prédictif, les algorithmes ML doivent être comparés à un ensemble prédéfini de techniques de régression traditionnelles pour le score de Brier (une métrique d'évaluation similaire à l'erreur quadratique moyenne, utilisée pour vérifier la qualité d'un score de probabilité prédit ), la discrimination (ou AUC) et l'étalonnage. Le modèle doit ensuite être validé en externe. Les méthodes analytiques et les mesures de performance sur lesquelles elles sont comparées doivent être spécifiées dans un protocole d'étude prospective et doivent aller au-delà de la performance globale, de la discrimination et de l'étalonnage pour inclure également des mesures liées au sur-ajustement.

À l'inverse, certains algorithmes sont capables de dire "je ne sais pas" face à des données inconnues13, un résultat important mais souvent sous-estimé, car savoir qu'une prédiction est très incertaine peut, en soi, être cliniquement exploitable.

Le cas échéant, des analyses de sensibilité (prédéfinies) utilisant des modèles statistiques traditionnels doivent être présentées parallèlement aux modèles ML.

Les protocoles doivent être publiés et évalués par des pairs dans la mesure du possible, et le choix du modèle doit être énoncé et justifié.

Tous les paramètres de performance du modèle doivent être divulgués et, idéalement, l'ensemble de données et le script d'analyse doivent être rendus publics.

Les publications utilisant des algorithmes ML doivent être accompagnées de clauses de non-responsabilité concernant leur processus de prise de décision, et leurs conclusions doivent être soigneusement formulées.

Les chercheurs doivent s'engager à développer des algorithmes ML interprétables et transparents qui peuvent être soumis à des freins et contrepoids.

Les ensembles de données doivent être inspectés pour détecter les sources de biais et les mesures nécessaires doivent être prises pour remédier aux biais.

Le type de technique ML utilisé doit être choisi en tenant compte du type, de la taille et de la dimensionnalité de l'ensemble de données disponible.

Les techniques d'apprentissage automatique doivent être évitées lorsqu'il s'agit d'ensembles de données cliniques de commodité très petits, mais facilement disponibles.

Les cliniciens-chercheurs doivent viser à se procurer et à utiliser de grands ensembles de données multicentriques ou internationaux harmonisés avec des données à haute résolution, si possible.

Une ligne directrice sur le choix de l'approche statistique, qu'il s'agisse de ML ou de techniques statistiques traditionnelles, aiderait les chercheurs cliniques et mettrait en évidence les choix appropriés.

Les chercheurs doivent démarrer tout projet de ML avec des objectifs de projet clairs et une analyse des avantages que l'IA, le ML ou les techniques statistiques conventionnelles offrent dans le cas d'utilisation clinique spécifique. Les analyses de regroupement non supervisées ont tendance à être bien adaptées pour découvrir des modèles cachés de regroupement, par exemple pour proposer une nouvelle taxonomie moléculaire des cancers14 ou définir des sous-types d'un trouble psychiatrique15.

Si l'objectif d'une étude est de développer un nouveau nomogramme pronostique ou un modèle prédictif, il y a peu de preuves que le ML s'en sortira mieux que les modèles statistiques traditionnels, même lorsqu'il s'agit d'ensembles de données volumineux et très dimensionnels1,2,8,9,10,11, 16,17,18. Si le but d'une étude est de déduire un effet causal du traitement d'une exposition donnée, de nombreuses techniques statistiques traditionnelles bien établies, telles que la modélisation par équation structurelle, la méthodologie des scores de propension, l'analyse des variables instrumentales et l'analyse de la discontinuité de la régression, donnent des résultats facilement interprétables et rigoureux. estimations de l'effet du traitement.

Contrairement à la surutilisation, le terme « abus » évoque des utilisations plus flagrantes du ML, allant d'une méthodologie problématique qui engendre de fausses inférences ou prédictions, à des applications du ML qui s'efforcent de remplacer le rôle des médecins dans des situations qui devraient encore nécessiter une intervention humaine.

Accepter sans discernement un algorithme d'IA uniquement basé sur ses performances, sans examiner son fonctionnement interne, représente une mauvaise utilisation de ML19, bien que l'on puisse se demander dans quelle mesure chaque décision de clinicien est solidement explicable.

De nombreux groupes ont appelé à un ML explicable ou à l'incorporation d'un raisonnement contrefactuel afin de démêler la corrélation de la causalité20. La médecine doit être fondée sur la science et les décisions médicales doivent être étayées par un raisonnement transparent et logique qui peut être soumis à des interrogations. La notion de « boîte noire » qui sous-tend la prise de décision clinique est une antithèse de la pratique moderne de la médecine et est de plus en plus imprécise, étant donné l'arsenal croissant de techniques telles que les cartes de saillance et les réseaux contradictoires génératifs qui peuvent être utilisés pour sonder le raisonnement. faites par les réseaux de neurones.

Les chercheurs doivent s'engager à développer des modèles ML interprétables, dont le raisonnement résiste à l'examen d'experts humains, et à partager des données et des scripts anonymisés qui permettraient une réplication et une validation externes. Certains chercheurs pourraient conclure que les machines peuvent identifier des modèles dans les données que le cerveau humain ne peut pas discerner. Pourtant, tout comme un expert devrait être capable d'expliquer ses schémas de pensée sur des sujets complexes, les machines devraient également être capables de justifier le chemin qu'elles ont emprunté pour découvrir certains schémas.

L'utilisation du ML malgré les contraintes de données, telles que les données biaisées et les petits ensembles de données, est une autre mauvaise utilisation de l'IA. Les données sur la formation peuvent être biaisées et amplifier les hypothèses sexistes et racistes3,21. Les techniques d'apprentissage en profondeur sont connues pour nécessiter de grandes quantités de données, mais de nombreuses publications dans la littérature médicale présentent des techniques avec des échantillons et des ensembles de fonctionnalités beaucoup plus petits que ceux généralement disponibles dans d'autres industries technologiques. Des algorithmes ML bien formés peuvent donc ne pas avoir accès à une description complète du problème clinique d'intérêt.

Le Facebook de Meta a formé son logiciel de reconnaissance faciale à l'aide de photos de plus d'un milliard d'utilisateurs ; les développeurs d'automobiles autonomes utilisent des milliards de kilomètres d'enregistrements vidéo du trafic routier de centaines de milliers de conducteurs individuels afin de développer un logiciel permettant de reconnaître les objets de la route ; et DeepBlue et AlphaGo apprennent des millions ou des milliards de parties d'échecs et de go jouées. En revanche, les études de recherche clinique impliquant l'IA utilisent généralement des milliers ou des centaines d'images radiologiques et pathologiques22, et les chirurgiens-chercheurs développant des logiciels de reconnaissance de phase chirurgicale ne travaillent souvent qu'avec quelques dizaines de vidéos chirurgicales23. Ces observations soulignent la pauvreté relative des données volumineuses dans le domaine de la santé et l'importance de s'efforcer d'atteindre des tailles d'échantillon similaires à celles qui ont été atteintes dans d'autres industries, ainsi que l'importance d'un effort concerté et international de partage de données volumineuses pour les données de santé.

Les fonctions respectives des humains et des algorithmes dans la prestation des soins de santé ne sont pas les mêmes. Les algorithmes permettent aux cliniciens de tirer le meilleur parti des données disponibles pour éclairer la pratique, en particulier lorsque les données ont une structure complexe ou sont à la fois volumineuses et très granulaires.

Les algorithmes ML peuvent compléter, mais pas remplacer, les médecins dans la plupart des aspects de la médecine clinique, de l'anamnèse et de l'examen physique au diagnostic, aux décisions thérapeutiques et à l'exécution des procédures. Les cliniciens-chercheurs doivent donc forger un cadre cohérent dans lequel les mégadonnées propulsent une nouvelle génération de collaboration homme-machine. Même les applications ML les plus sophistiquées sont susceptibles d'exister en tant que modules d'aide à la décision discrets pour prendre en charge des aspects spécifiques des soins aux patients, plutôt que de rivaliser avec leurs homologues humains.

Les patients humains voudront probablement que les médecins humains continuent à prendre des décisions médicales, même si un algorithme peut prédire les résultats. Le ML doit donc être étudié et mis en œuvre en tant que partie intégrante d'un système de soins complet.

L'intégration clinique du ML et du big data est sur le point d'améliorer la médecine. Les chercheurs en ML devraient reconnaître les limites de leurs algorithmes et modèles afin d'éviter leur utilisation excessive et abusive, qui pourrait autrement semer la méfiance et nuire aux patients.

Christodoulou, E. et al. J.Clin. Épidémiol. 110, 12-22 (2019).

Article Google Scholar

Gravesteijn, BY et al. J.Clin. Épidémiol. 122, 95-107 (2020).

Article Google Scholar

Zou, J. et al. Nature 559, 324–326 (2018).

Article CAS Google Scholar

Topol, EJ Nat. Avec. 26, 1318-1320 (2020).

Article CAS Google Scholar

Vasey, B. et al. né Méd. 28, 924–933 (2022).

Article CAS Google Scholar

DeGrave, AJ et al. Nat. Mach. Intel. 3, 610–619 (2021).

Article Google Scholar

Wynants, L. et al. Br. Méd. J.369, m1328 (2020).

Article Google Scholar

Abramoff, MD et al. npj Chiffre. Méd. 1, 39 (2018).

Article Google Scholar

Shin, S. et al. Échec cardiaque ESC. 8, 106-115 (2021).

Article Google Scholar

Cho, SM et al. Peut. J. Cardiol. 37, 1207-1214 (2021).

Article Google Scholar

Uddin, S. et al. BMC Med. Informe. Déterminé. Mak. 19, 281 (2019).

Article Google Scholar

Volovici, V. et al. J. Neurotrauma 36, ​​​​3183–3189 (2019).

Article Google Scholar

Shashikumar, SP et al. npj Chiffre. Méd. 4, 134 (2021).

Article Google Scholar

Réseau de recherche sur l'atlas du génome du cancer. et coll. Nat. Genet. 45, 1113-1120 (2013).

Article Google Scholar

Association psychiatrique américaine. Manuel diagnostique et statistique des troubles mentaux 5e édition (APA, 2013).

Futoma, J. et al. Lancet chiffre. Santé 2, e489–e492 (2020).

Article Google Scholar

Chat, D. et al. Neurochirurgie mondiale. 161, 230–239.e236 (2022).

Article Google Scholar

Marek, S. et al. Nature 603, 654–660 (2022).

Article CAS Google Scholar

Rudin, C. Nat. Mach. Intel. 1, 206-215 (2019).

Article Google Scholar

Richens, J. G. et al. Nat. Commun. 11, 3923 (2020).

Article CAS Google Scholar

Andaur Navarro, CL et al. Br. Méd. J. 375, n2281 (2021).

Google Scholar

Stulberg, J. J. et al. JAMA Surg. 153, 586–587 (2018).

Article Google Scholar

Twinanda, AP et al. IEEE Trans. Méd. Imagerie 36, 86–97 (2017).

Article Google Scholar

Télécharger les références

Nous remercions M. van Bilsen pour la figure et F. Liu pour ses précieux conseils. VV tient à remercier D. Volovici pour avoir ouvert le monde des probabilités, des statistiques et de l'apprentissage automatique.

Département de neurochirurgie, Centre médical universitaire Erasmus MC, Rotterdam, Pays-Bas

Victor Volovici

École de médecine Yong Loo Lin, Université nationale de Singapour, Singapour, Singapour

Nicholas L. Syn et Joseph J. Zhao

Département de chirurgie, National University Hospital, National University Health System, Singapour, Singapour

Nicholas L. Syn

Cambridge Centre for AI in Medicine, Université de Cambridge, Cambridge, Royaume-Uni

Ari Hercule

Programme de recherche sur les services et les systèmes de santé, Duke – NUS Medical School, Singapour, Singapour

Nan Liu

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

VV a conçu l'idée, rédigé le premier manuscrit, conceptualisé la figure et supervisé le travail; NS a considérablement révisé le manuscrit et lu de manière critique toutes les versions du manuscrit. AE, JJZ et NL ont apporté des révisions substantielles et approuvé le manuscrit final.

Correspondance à Victor Volovici.

Les auteurs ne déclarent aucun intérêt concurrent.

Réimpressions et autorisations

Volovici, V., Syn, NL, Ercole, A. et al. Étapes pour éviter la surutilisation et l'utilisation abusive de l'apprentissage automatique dans la recherche clinique. Nat Med 28, 1996–1999 (2022). https://doi.org/10.1038/s41591-022-01961-6

Télécharger la citation

Publié: 12 septembre 2022

Date d'émission : octobre 2022

DOI : https://doi.org/10.1038/s41591-022-01961-6

Toute personne avec qui vous partagez le lien suivant pourra lire ce contenu :

Désolé, aucun lien partageable n'est actuellement disponible pour cet article.

Fourni par l'initiative de partage de contenu Springer Nature SharedIt