Jun 08, 2023
Modèles de base pour l'intelligence artificielle médicale généraliste
Nature tome 616, pages
Nature volume 616, pages 259–265 (2023)Citer cet article
92 000 accès
5 Citations
638 Altmétrique
Détails des métriques
Le développement exceptionnellement rapide de modèles d'intelligence artificielle (IA) hautement flexibles et réutilisables est susceptible d'ouvrir la voie à de nouvelles capacités en médecine. Nous proposons un nouveau paradigme pour l'IA médicale, que nous appelons l'IA médicale généraliste (GMAI). Les modèles GMAI seront capables d'effectuer un ensemble diversifié de tâches en utilisant très peu ou pas de données étiquetées spécifiques à la tâche. Construit grâce à l'auto-supervision sur de vastes ensembles de données diversifiés, GMAI interprétera de manière flexible différentes combinaisons de modalités médicales, y compris les données d'imagerie, les dossiers de santé électroniques, les résultats de laboratoire, la génomique, les graphiques ou les textes médicaux. Les modèles produiront à leur tour des sorties expressives telles que des explications en texte libre, des recommandations orales ou des annotations d'images qui démontrent des capacités avancées de raisonnement médical. Ici, nous identifions un ensemble d'applications potentielles à fort impact pour GMAI et présentons les capacités techniques spécifiques et les ensembles de données de formation nécessaires pour les activer. Nous prévoyons que les applications compatibles GMAI remettront en question les stratégies actuelles de réglementation et de validation des dispositifs d'IA pour la médecine et modifieront les pratiques associées à la collecte de grands ensembles de données médicales.
Les modèles de base, la dernière génération de modèles d'IA, sont entraînés sur des ensembles de données massifs et variés et peuvent être appliqués à de nombreuses tâches en aval1. Les modèles individuels peuvent désormais atteindre des performances de pointe sur une grande variété de problèmes, allant de la réponse à des questions sur des textes à la description d'images et à la lecture de jeux vidéo2,3,4. Cette polyvalence représente un changement radical par rapport à la génération précédente de modèles d'IA, qui étaient conçus pour résoudre des tâches spécifiques, une à la fois.
Poussés par des ensembles de données croissants, l'augmentation de la taille des modèles et les avancées dans les architectures de modèles, les modèles de base offrent des capacités inédites. Par exemple, en 2020, le modèle de langage GPT-3 a débloqué une nouvelle capacité : l'apprentissage en contexte, grâce auquel le modèle a effectué des tâches entièrement nouvelles pour lesquelles il n'avait jamais été explicitement formé, simplement en apprenant à partir d'explications textuelles (ou "invites"). ) contenant quelques exemples5. De plus, de nombreux modèles de base récents sont capables d'accepter et de produire des combinaisons de différentes modalités de données4,6. Par exemple, le modèle récent de Gato peut chatter, sous-titrer des images, jouer à des jeux vidéo et contrôler un bras de robot et a ainsi été décrit comme un agent généraliste2. Comme certaines capacités n'apparaissent que dans les plus grands modèles, il reste difficile de prédire ce que des modèles encore plus grands pourront accomplir7.
Bien qu'il y ait eu des efforts précoces pour développer des modèles de base médicaux8,9,10,11, ce changement n'a pas encore largement imprégné l'IA médicale, en raison de la difficulté d'accéder à des ensembles de données médicales vastes et diversifiés, de la complexité du domaine médical et de la récence de cette évolution. Au lieu de cela, les modèles d'IA médicale sont encore largement développés avec une approche spécifique à la tâche pour le développement de modèles. Par exemple, un modèle d'interprétation de radiographie pulmonaire peut être formé sur un ensemble de données dans lequel chaque image a été explicitement étiquetée comme positive ou négative pour la pneumonie, nécessitant probablement un effort d'annotation important. Ce modèle ne détecterait que la pneumonie et ne serait pas en mesure de réaliser l'exercice de diagnostic complet consistant à rédiger un rapport de radiologie complet. Cette approche étroite et spécifique à une tâche produit des modèles inflexibles, limités à l'exécution de tâches prédéfinies par l'ensemble de données d'apprentissage et ses étiquettes. Dans la pratique actuelle, de tels modèles ne peuvent généralement pas s'adapter à d'autres tâches (ou même à différentes distributions de données pour la même tâche) sans être recyclés sur un autre jeu de données. Sur plus de 500 modèles d'IA pour la médecine clinique qui ont reçu l'approbation de la Food and Drug Administration, la plupart n'ont été approuvés que pour 1 ou 2 tâches précises12.
Nous décrivons ici comment les progrès récents dans la recherche sur les modèles de fondation peuvent perturber ce paradigme spécifique à la tâche. Il s'agit notamment de l'essor des architectures multimodales13 et des techniques d'apprentissage auto-supervisé14 qui se passent d'étiquettes explicites (par exemple, la modélisation du langage15 et l'apprentissage contrastif16), ainsi que l'avènement des capacités d'apprentissage en contexte5.
Ces avancées permettront plutôt le développement de GMAI, une classe de modèles de base médicaux avancés. « Généraliste » implique qu'ils seront largement utilisés dans les applications médicales, remplaçant en grande partie les modèles spécifiques à une tâche.
Inspirés directement des modèles de base en dehors de la médecine, nous identifions trois capacités clés qui distinguent les modèles GMAI des modèles d'IA médicale conventionnels (Fig. 1). Premièrement, adapter un modèle GMAI à une nouvelle tâche sera aussi simple que de décrire la tâche en langage clair (ou dans une autre langue). Les modèles pourront résoudre des problèmes inédits simplement en se faisant expliquer de nouvelles tâches (spécification dynamique des tâches), sans avoir besoin de se recycler3,5. Deuxièmement, les modèles GMAI peuvent accepter des entrées et produire des sorties en utilisant diverses combinaisons de modalités de données (par exemple, peuvent prendre des images, du texte, des résultats de laboratoire ou toute combinaison de ceux-ci). Cette interactivité flexible contraste avec les contraintes des modèles multimodaux plus rigides, qui utilisent toujours des ensembles prédéfinis de modalités en entrée et en sortie (par exemple, doivent toujours prendre ensemble des images, du texte et des résultats de laboratoire). Troisièmement, les modèles GMAI représenteront formellement les connaissances médicales, leur permettant de raisonner sur des tâches inédites et d'utiliser un langage médicalement précis pour expliquer leurs résultats.
Nous énumérons des stratégies concrètes pour réaliser ce changement de paradigme dans l'IA médicale. En outre, nous décrivons un ensemble d'applications potentiellement à fort impact que cette nouvelle génération de modèles permettra. Enfin, nous soulignons les principaux défis qui doivent être surmontés pour que la GMAI offre la valeur clinique qu'elle promet.
Les modèles GMAI promettent de résoudre des tâches plus diverses et plus difficiles que les modèles d'IA médicale actuels, même s'ils ne nécessitent que peu ou pas d'étiquettes pour des tâches spécifiques. Parmi les trois capacités de définition de GMAI, deux permettent des interactions flexibles entre le modèle GMAI et l'utilisateur : premièrement, la capacité d'effectuer des tâches spécifiées dynamiquement ; et deuxièmement, la capacité à prendre en charge des combinaisons flexibles de modalités de données. La troisième capacité nécessite que les modèles GMAI représentent formellement les connaissances du domaine médical et en tirent parti pour effectuer un raisonnement médical avancé. Les modèles de base récents présentent déjà des aspects individuels de GMAI, en combinant de manière flexible plusieurs modalités2 ou en permettant de spécifier dynamiquement une nouvelle tâche au moment du test5, mais des progrès substantiels sont encore nécessaires pour construire un modèle GMAI avec les trois capacités. Par exemple, les modèles existants qui montrent des capacités de raisonnement médical (tels que GPT-3 ou PaLM) ne sont pas multimodaux et ne génèrent pas encore d'énoncés factuels fiables.
GMAI offre aux utilisateurs la possibilité d'interagir avec des modèles via des requêtes personnalisées, ce qui facilite la compréhension des informations sur l'IA pour différents publics et offre une flexibilité sans précédent entre les tâches et les paramètres. Dans la pratique actuelle, les modèles d'IA gèrent généralement un ensemble restreint de tâches et produisent un ensemble rigide et prédéterminé de résultats. Par exemple, un modèle actuel peut détecter une maladie spécifique, en prenant un type d'image et en produisant toujours la probabilité de cette maladie. En revanche, une requête personnalisée permet aux utilisateurs de poser des questions à la volée : "Expliquez la masse apparaissant sur cette IRM de la tête. S'agit-il plutôt d'une tumeur ou d'un abcès ?". De plus, les requêtes peuvent permettre aux utilisateurs de personnaliser le format de leurs sorties : "Ceci est une IRM de suivi d'un patient atteint de glioblastome. Décrivez toutes les tumeurs en rouge".
Les requêtes personnalisées activeront deux fonctionnalités clés : la spécification de tâche dynamique et les entrées et sorties multimodales, comme suit.
Les requêtes personnalisées peuvent apprendre aux modèles d'IA à résoudre de nouveaux problèmes à la volée, en spécifiant dynamiquement de nouvelles tâches sans nécessiter de réentraînement des modèles. Par exemple, la GMAI peut répondre à des questions très précises et inédites : "Compte tenu de cette échographie, quelle est l'épaisseur de la paroi de la vésicule biliaire en millimètres ?". Sans surprise, un modèle GMAI peut avoir du mal à accomplir de nouvelles tâches impliquant des concepts ou des pathologies inconnus. L'apprentissage en contexte permet ensuite aux utilisateurs d'enseigner au GMAI un nouveau concept avec quelques exemples : "Voici les antécédents médicaux de dix patients précédents atteints d'une maladie émergente, une infection par l'hénipavirus de Langya. Quelle est la probabilité que notre patient actuel soit également infecté par l'hénipavirus de Langya?"17.
Les requêtes personnalisées peuvent permettre aux utilisateurs d'inclure des informations médicales complexes dans leurs questions, en mélangeant librement les modalités. Par exemple, un clinicien peut inclure plusieurs images et résultats de laboratoire dans sa requête lorsqu'il demande un diagnostic. Les modèles GMAI peuvent également intégrer de manière flexible différentes modalités dans les réponses, par exemple lorsqu'un utilisateur demande à la fois une réponse textuelle et une visualisation d'accompagnement. À la suite des modèles précédents tels que Gato, les modèles GMAI peuvent combiner des modalités en transformant les données de chaque modalité en « jetons », chacun représentant une petite unité (par exemple, un mot dans une phrase ou un patch dans une image) qui peut être combinée entre les modalités. Ce flux mélangé de jetons peut ensuite être introduit dans une architecture de transformateur18, permettant aux modèles GMAI d'intégrer l'historique complet d'un patient donné, y compris les rapports, les signaux de forme d'onde, les résultats de laboratoire, les profils génomiques et les études d'imagerie.
Contrairement à un clinicien, les modèles d'IA médicale conventionnels manquent généralement de connaissances préalables sur le domaine médical avant d'être formés à leurs tâches particulières. Au lieu de cela, ils doivent s'appuyer uniquement sur des associations statistiques entre les caractéristiques des données d'entrée et la cible de prédiction, sans disposer d'informations contextuelles (par exemple, sur les processus physiopathologiques). Ce manque de connaissances rend plus difficile la formation de modèles pour des tâches médicales spécifiques, en particulier lorsque les données pour les tâches sont rares.
Les modèles GMAI peuvent combler ces lacunes en représentant formellement les connaissances médicales. Par exemple, des structures telles que des graphes de connaissances peuvent permettre aux modèles de raisonner sur les concepts médicaux et les relations entre eux. En outre, en s'appuyant sur des approches récentes basées sur la récupération, GMAI peut récupérer le contexte pertinent à partir de bases de données existantes, sous la forme d'articles, d'images ou de cas antérieurs entiers19,20.
Les modèles qui en résultent peuvent déclencher des avertissements explicites : "Ce patient est susceptible de développer un syndrome de détresse respiratoire aiguë, car le patient a été récemment admis avec un traumatisme thoracique sévère et parce que la pression partielle d'oxygène du patient dans le sang artériel a régulièrement diminué, malgré une augmentation de la fraction inspirée d'oxygène".
Comme un modèle GMAI peut même être invité à fournir des recommandations de traitement, bien qu'il soit principalement formé sur des données d'observation, la capacité du modèle à déduire et à exploiter les relations causales entre les concepts médicaux et les résultats cliniques jouera un rôle clé pour l'applicabilité clinique21.
Enfin, en accédant à de riches connaissances moléculaires et cliniques, un modèle GMAI peut résoudre des tâches avec des données limitées en s'appuyant sur la connaissance des problèmes connexes, comme en témoignent les premiers travaux sur la réorientation des médicaments basés sur l'IA22.
Nous présentons six cas d'utilisation potentiels pour GMAI qui ciblent différentes bases d'utilisateurs et disciplines, bien que notre liste ne soit pas exhaustive. Bien qu'il y ait déjà eu des efforts d'IA dans ces domaines, nous nous attendons à ce que GMAI permette des solutions complètes pour chaque problème.
GMAI permet une nouvelle génération d'assistants de radiologie numériques polyvalents, soutenant les radiologues tout au long de leur flux de travail et réduisant considérablement les charges de travail. Les modèles GMAI peuvent rédiger automatiquement des rapports de radiologie décrivant à la fois les anomalies et les résultats normaux pertinents, tout en tenant compte des antécédents du patient. Ces modèles peuvent fournir une aide supplémentaire aux cliniciens en associant des rapports textuels à des visualisations interactives, par exemple en mettant en évidence la région décrite par chaque phrase. Les radiologues peuvent également améliorer leur compréhension des cas en discutant avec les modèles GMAI : "Pouvez-vous mettre en évidence de nouvelles lésions de sclérose en plaques qui n'étaient pas présentes dans l'image précédente ?".
Une solution doit interpréter avec précision diverses modalités de radiologie, en remarquant même des anomalies subtiles. De plus, il doit intégrer des informations provenant de l'historique d'un patient, y compris des sources telles que des indications, des résultats de laboratoire et des images précédentes, lors de la description d'une image. Il doit également communiquer avec les cliniciens en utilisant plusieurs modalités, fournissant à la fois des réponses textuelles et des images annotées dynamiquement. Pour ce faire, il doit être capable de se fonder visuellement, indiquant avec précision quelle partie d'une image prend en charge toute déclaration. Bien que cela puisse être réalisé grâce à un apprentissage supervisé sur des images étiquetées par des experts, des méthodes d'explicabilité telles que Grad-CAM pourraient permettre des approches auto-supervisées, ne nécessitant aucune donnée étiquetée23.
Nous prévoyons un modèle GMAI chirurgical qui peut aider les équipes chirurgicales dans les procédures : "Nous ne pouvons pas trouver la rupture intestinale. Vérifiez si nous avons manqué une vue d'une section intestinale dans le flux visuel des 15 dernières minutes". Les modèles GMAI peuvent effectuer des tâches de visualisation, annotant potentiellement les flux vidéo d'une procédure en temps réel. Ils peuvent également fournir des informations sous forme orale, par exemple en déclenchant des alertes lorsque des étapes d'une procédure sont sautées ou en lisant la littérature pertinente lorsque les chirurgiens rencontrent des phénomènes anatomiques rares.
a, Un modèle GMAI est formé sur plusieurs modalités de données médicales, grâce à des techniques telles que l'apprentissage auto-supervisé. Pour permettre des interactions flexibles, les modalités de données telles que les images ou les données des DSE peuvent être associées au langage, sous forme de données textuelles ou vocales. Ensuite, le modèle GMAI doit accéder à diverses sources de connaissances médicales pour effectuer des tâches de raisonnement médical, débloquant une multitude de capacités pouvant être utilisées dans des applications en aval. Le modèle GMAI résultant exécute alors des tâches que l'utilisateur peut spécifier en temps réel. Pour cela, le modèle GMAI peut récupérer des informations contextuelles à partir de sources telles que des graphes de connaissances ou des bases de données, en tirant parti des connaissances médicales formelles pour raisonner sur des tâches inédites. b, Le modèle GMAI jette les bases de nombreuses applications dans toutes les disciplines cliniques, chacune nécessitant une validation minutieuse et une évaluation réglementaire.
Ce modèle peut également faciliter les procédures en dehors de la salle d'opération, telles que les procédures endoscopiques. Un modèle qui capture le contexte topographique et les raisons avec des connaissances anatomiques peut tirer des conclusions sur des phénomènes jamais vus auparavant. Par exemple, il pourrait en déduire qu'une grande structure vasculaire apparaissant dans une duodénoscopie peut indiquer une fistule aortoduodénale (c'est-à-dire une connexion anormale entre l'aorte et l'intestin grêle), bien qu'elle n'en ait jamais rencontré auparavant (Fig. 2, panneau de droite). GMAI peut résoudre cette tâche en détectant d'abord le vaisseau, en identifiant ensuite l'emplacement anatomique et enfin en considérant les structures voisines.
a, GMAI pourrait permettre une aide à la décision polyvalente et explicite au chevet du patient. b, les rapports de radiologie mis à la terre sont équipés de liens cliquables pour visualiser chaque résultat. c, GMAI a le potentiel de classer des phénomènes qui n'ont jamais été rencontrés auparavant lors du développement du modèle. Dans les procédures augmentées, une découverte de valeur aberrante rare est expliquée avec un raisonnement étape par étape en tirant parti des connaissances du domaine médical et du contexte topographique. L'exemple présenté est inspiré d'un rapport de cas58. Image de la fistule dans le panneau c adapté de la réf. 58, CC BY 3.0.
Une solution doit intégrer les modalités vision, langage et audio, en utilisant un modèle vision-audio-langage pour accepter les requêtes parlées et effectuer des tâches à l'aide du flux visuel. Les modèles vision-langage ont déjà gagné du terrain, et le développement de modèles qui intègrent d'autres modalités n'est qu'une question de temps24. Les approches peuvent s'appuyer sur des travaux antérieurs qui combinent des modèles de langage et des graphes de connaissances25,26 pour raisonner étape par étape sur les tâches chirurgicales. De plus, les GMAI déployés en milieu chirurgical seront probablement confrontés à des phénomènes cliniques inhabituels qui ne peuvent pas être inclus lors du développement du modèle, en raison de leur rareté, un défi connu sous le nom de longue traîne des conditions invisibles27. Les capacités de raisonnement médical seront cruciales à la fois pour détecter les valeurs aberrantes inédites et pour les expliquer, comme illustré à la Fig. 2.
GMAI active une nouvelle classe d'outils d'aide à la décision clinique au chevet du patient qui étendent les systèmes d'alerte précoce basés sur l'IA existants, fournissant des explications plus détaillées ainsi que des recommandations pour les soins futurs. Par exemple, les modèles GMAI pour l'aide à la décision au chevet du patient peuvent tirer parti des connaissances cliniques et fournir des explications en texte libre et des résumés de données : "Avertissement : cette patiente est sur le point d'entrer en état de choc. Sa circulation s'est déstabilisée au cours des 15 dernières minutes
Une solution doit analyser les sources de dossiers de santé électroniques (DSE) (par exemple, les paramètres vitaux et de laboratoire, et les notes cliniques) qui impliquent plusieurs modalités, y compris des données de séries temporelles textuelles et numériques. Il doit pouvoir résumer l'état actuel d'un patient à partir de données brutes, projeter les états futurs potentiels du patient et recommander des décisions de traitement. Une solution peut projeter comment l'état d'un patient changera au fil du temps, en utilisant des techniques de modélisation du langage pour prédire ses futurs enregistrements textuels et numériques à partir de ses données précédentes. Les ensembles de données de formation peuvent spécifiquement associer les données de séries chronologiques du DSE aux résultats éventuels des patients, qui peuvent être collectés à partir des rapports de sortie et des codes de la CIM (Classification internationale des maladies). De plus, le modèle doit pouvoir comparer les traitements potentiels et estimer leurs effets, tout en respectant les directives thérapeutiques et autres politiques pertinentes. Le modèle peut acquérir les connaissances nécessaires grâce à des graphiques de connaissances cliniques et à des sources textuelles telles que des publications universitaires, des manuels pédagogiques, des directives internationales et des politiques locales. Des approches peuvent être inspirées par REALM, un modèle de langage qui répond aux requêtes en récupérant d'abord un seul document pertinent, puis en en extrayant la réponse, permettant aux utilisateurs d'identifier la source exacte de chaque réponse20.
La documentation représente une partie intégrante mais exigeante en main-d'œuvre des flux de travail cliniques. En surveillant les informations électroniques sur les patients ainsi que les conversations clinicien-patient, les modèles GMAI rédigent de manière préventive des documents tels que des notes électroniques et des rapports de sortie que les cliniciens doivent simplement examiner, modifier et approuver. Ainsi, GMAI peut réduire considérablement les frais généraux administratifs, permettant aux cliniciens de passer plus de temps avec les patients.
Une solution GMAI peut s'appuyer sur les avancées récentes des modèles parole-texte28, techniques spécialisées pour les applications médicales. Il doit interpréter avec précision les signaux vocaux, comprendre le jargon médical et les abréviations. De plus, il doit contextualiser les données vocales avec les informations des DSE (par exemple, la liste des diagnostics, les paramètres vitaux et les rapports de sortie précédents), puis générer des notes ou des rapports en texte libre. Il sera essentiel d'obtenir le consentement avant d'enregistrer toute interaction avec un patient. Avant même que de tels enregistrements ne soient collectés en grand nombre, des modèles de prise de notes précoces peuvent déjà être développés en tirant parti des données d'interaction clinicien-patient collectées à partir d'applications de chat.
GMAI a le potentiel d'alimenter de nouvelles applications pour le soutien aux patients, en fournissant des soins de haute qualité même en dehors des milieux cliniques. Par exemple, GMAI peut construire une vue holistique de l'état d'un patient en utilisant plusieurs modalités, allant des descriptions non structurées des symptômes aux lectures continues du moniteur de glucose aux journaux de médicaments fournis par le patient. Après avoir interprété ces types de données hétérogènes, les modèles GMAI peuvent interagir avec le patient, en fournissant des conseils et des explications détaillés. Surtout, GMAI permet une communication accessible, fournissant des informations claires, lisibles ou audibles sur l'horaire du patient. Alors que des applications similaires dépendent actuellement des cliniciens pour offrir un soutien personnalisé29, GMAI promet de réduire, voire de supprimer, le besoin d'intervention d'experts humains, rendant les applications disponibles à plus grande échelle. Comme pour les applications de chat en direct existantes, les utilisateurs peuvent toujours dialoguer avec un conseiller humain sur demande.
La création de chatbots destinés aux patients avec GMAI soulève deux défis particuliers. Premièrement, les modèles destinés aux patients doivent être capables de communiquer clairement avec des publics non techniques, en utilisant un langage simple et clair sans sacrifier l'exactitude du contenu. L'inclusion de textes médicaux axés sur le patient dans les ensembles de données de formation peut permettre cette capacité. Deuxièmement, ces modèles doivent fonctionner avec diverses données recueillies par les patients. Les données fournies par les patients peuvent représenter des modalités inhabituelles ; par exemple, les patients ayant des exigences alimentaires strictes peuvent soumettre des photos avant et après leurs repas afin que les modèles GMAI puissent automatiquement surveiller leur apport alimentaire. Les données recueillies par les patients sont également susceptibles d'être plus bruyantes que les données provenant d'un environnement clinique, car les patients peuvent être plus sujets aux erreurs ou utiliser des appareils moins fiables lors de la collecte de données. Encore une fois, l'intégration de données pertinentes dans la formation peut aider à surmonter ce défi. Cependant, les modèles GMAI doivent également surveiller leur propre incertitude et prendre les mesures appropriées lorsqu'ils ne disposent pas de suffisamment de données fiables.
GMAI pourrait générer des séquences d'acides aminés protéiques et leurs structures tridimensionnelles à partir d'invites textuelles. Inspiré des modèles génératifs de séquences protéiques existants30, un tel modèle pourrait conditionner sa génération aux propriétés fonctionnelles recherchées. En revanche, un modèle GMAI doté de connaissances biomédicales promet des interfaces de conception de protéines aussi flexibles et faciles à utiliser que des modèles génératifs texte-image simultanés tels que Stable Diffusion ou DALL-E31,32. De plus, en déverrouillant les capacités d'apprentissage en contexte, un modèle texte-protéine basé sur GMAI peut être invité avec une poignée d'exemples d'instructions associées à des séquences pour définir dynamiquement une tâche de nouvelle génération, telle que la génération d'une protéine qui se lie avec haute affinité pour une cible spécifiée tout en respectant des contraintes supplémentaires.
Il y a déjà eu des efforts précoces pour développer des modèles de base pour les séquences biologiques33,34, y compris RFdiffusion, qui génère des protéines sur la base de spécifications simples (par exemple, une cible de liaison)35. S'appuyant sur ce travail, la solution basée sur GMAI peut incorporer à la fois des données de séquence de langue et de protéine pendant la formation pour offrir une interface texte polyvalente. Une solution pourrait également s'appuyer sur les avancées récentes de l'IA multimodale telles que CLIP, dans laquelle des modèles sont formés conjointement sur des données appariées de différentes modalités16. Lors de la création d'un tel ensemble de données de formation, les séquences de protéines individuelles doivent être associées à des passages de texte pertinents (par exemple, du corps de la littérature biologique) qui décrivent les propriétés des protéines. Des initiatives à grande échelle, comme UniProt, qui cartographient les fonctions des protéines pour des millions de protéines, seront indispensables pour cet effort36.
GMAI a le potentiel d'affecter la pratique médicale en améliorant les soins et en réduisant l'épuisement professionnel des cliniciens. Nous détaillons ici les principaux avantages des modèles GMAI. Nous décrivons également les défis critiques qui doivent être relevés pour assurer un déploiement sûr, car les modèles GMAI fonctionneront dans des contextes à enjeux particulièrement élevés, par rapport aux modèles de base dans d'autres domaines.
GMAI permet aux utilisateurs de contrôler avec précision le format de ses sorties, ce qui facilite l'accès et la compréhension des informations médicales complexes. Par exemple, il y aura des modèles GMAI qui peuvent reformuler les réponses en langage naturel sur demande. De même, les visualisations fournies par GMAI peuvent être soigneusement adaptées, par exemple en changeant le point de vue ou en étiquetant les caractéristiques importantes avec du texte. Les modèles peuvent également potentiellement ajuster le niveau de détail spécifique au domaine dans leurs sorties ou les traduire en plusieurs langues, communiquant efficacement avec divers utilisateurs. Enfin, la flexibilité de GMAI lui permet de s'adapter à des régions ou des hôpitaux particuliers, en suivant les coutumes et politiques locales. Les utilisateurs peuvent avoir besoin d'instructions formelles sur la façon d'interroger un modèle GMAI et d'utiliser ses résultats le plus efficacement possible.
Les modèles d'IA médicale existants sont aux prises avec des changements de distribution, dans lesquels les distributions de données changent en raison de changements dans les technologies, les procédures, les paramètres ou les populations37,38. Cependant, GMAI peut suivre le rythme des changements grâce à l'apprentissage en contexte. Par exemple, un hôpital peut apprendre à un modèle GMAI à interpréter les rayons X d'un tout nouveau scanner simplement en fournissant des invites qui montrent un petit ensemble d'exemples. Ainsi, GMAI peut s'adapter à de nouvelles distributions de données à la volée, alors que les modèles d'IA médicale conventionnels devraient être recyclés sur un ensemble de données entièrement nouveau. À l'heure actuelle, l'apprentissage en contexte est observé principalement dans les grands modèles de langage39. Pour s'assurer que le GMAI peut s'adapter aux changements de contexte, un squelette de modèle GMAI doit être formé sur des données extrêmement diverses provenant de sources et de modalités multiples et complémentaires. Par exemple, pour s'adapter aux variantes émergentes de la maladie à coronavirus 2019, un modèle réussi peut récupérer les caractéristiques des variantes passées et les mettre à jour lorsqu'il est confronté à un nouveau contexte dans une requête. Par exemple, un clinicien pourrait dire : "Vérifiez ces radiographies pulmonaires pour une pneumonie à Omicron. Par rapport à la variante Delta, considérez les infiltrats entourant les bronches et les vaisseaux sanguins comme des signes indicatifs"40.
Bien que les utilisateurs puissent ajuster manuellement le comportement du modèle à l'aide d'invites, de nouvelles techniques peuvent également avoir un rôle à jouer pour intégrer automatiquement la rétroaction humaine. Par exemple, les utilisateurs peuvent être en mesure d'évaluer ou de commenter chaque sortie d'un modèle GMAI, tout comme les utilisateurs évaluent les sorties de ChatGPT (publié par OpenAI en 2022), une interface de chat alimentée par l'IA. Une telle rétroaction peut ensuite être utilisée pour améliorer le comportement du modèle, à l'instar d'InstructGPT, un modèle créé en utilisant la rétroaction humaine pour affiner GPT-3 grâce à l'apprentissage par renforcement41.
Les modèles d'IA à grande échelle servent déjà de base à de nombreuses applications en aval. Par exemple, quelques mois après sa sortie, GPT-3 a alimenté plus de 300 applications dans divers secteurs42. En tant que premier exemple prometteur d'un modèle de base médicale, CheXzero peut être appliqué pour détecter des dizaines de maladies dans les radiographies pulmonaires sans être formé sur des étiquettes explicites pour ces maladies9. De même, le passage à la GMAI entraînera le développement et la publication de modèles d'IA médicale à grande échelle dotés de vastes capacités, qui constitueront la base de diverses applications cliniques en aval. De nombreuses applications s'interfaceront avec le modèle GMAI lui-même, en utilisant directement ses sorties finales. D'autres peuvent utiliser des représentations numériques intermédiaires, que les modèles GMAI génèrent naturellement dans le processus de production de sorties, comme entrées pour de petits modèles spécialisés qui peuvent être construits à moindre coût pour des tâches spécifiques. Cependant, cette applicabilité flexible peut agir comme une épée à double tranchant, car tout mode de défaillance qui existe dans le modèle de base se propagera largement dans les applications en aval.
Les modèles GMAI seront particulièrement difficiles à valider, en raison de leur polyvalence sans précédent. À l'heure actuelle, les modèles d'IA sont conçus pour des tâches spécifiques, ils doivent donc être validés uniquement pour ces cas d'utilisation prédéfinis (par exemple, diagnostiquer un type particulier de cancer à partir d'une IRM cérébrale). Cependant, les modèles GMAI peuvent effectuer pour la première fois des tâches inédites définies par un utilisateur final (par exemple, diagnostiquer une maladie dans une IRM cérébrale), il est donc catégoriquement plus difficile d'anticiper tous leurs modes de défaillance. Les développeurs et les régulateurs seront chargés d'expliquer comment les modèles GMAI ont été testés et pour quels cas d'utilisation ils ont été approuvés. Les interfaces GMAI elles-mêmes devraient être conçues pour déclencher des avertissements « d'utilisation non conforme » lors de l'entrée dans des territoires inexplorés, au lieu de fabriquer en toute confiance des informations inexactes. Plus généralement, les capacités exceptionnellement larges de GMAI nécessitent une prévoyance réglementaire, exigeant que les politiques institutionnelles et gouvernementales s'adaptent au nouveau paradigme, et refaçonneront également les accords d'assurance et l'attribution des responsabilités.
Par rapport aux modèles d'IA conventionnels, les modèles GMAI peuvent gérer des entrées et des sorties inhabituellement complexes, ce qui rend plus difficile pour les cliniciens de déterminer leur exactitude. Par exemple, les modèles conventionnels peuvent considérer uniquement une étude d'imagerie ou une image de diapositive entière lors de la classification du cancer d'un patient. Dans chaque cas, un seul radiologue ou pathologiste pourrait vérifier si les sorties du modèle sont correctes. Cependant, un modèle GMAI peut considérer les deux types d'entrées et peut produire une classification initiale, une recommandation de traitement et une justification multimodale impliquant des visualisations, des analyses statistiques et des références à la littérature. Dans ce cas, un panel multidisciplinaire (composé de radiologues, de pathologistes, d'oncologues et de spécialistes supplémentaires) peut être nécessaire pour juger des résultats du GMAI. La vérification des faits des sorties GMAI représente donc un sérieux défi, à la fois pendant la validation et après le déploiement des modèles.
Les créateurs peuvent faciliter la vérification des sorties GMAI en incorporant des techniques d'explicabilité. Par exemple, les sorties d'un GMAI peuvent inclure des liens cliquables vers des passages de soutien dans la littérature, permettant aux cliniciens de vérifier plus efficacement les prédictions du GMAI. D'autres stratégies pour vérifier les résultats d'un modèle sans expertise humaine ont récemment été proposées43. Enfin, il est d'une importance vitale que les modèles GMAI expriment avec précision l'incertitude, empêchant ainsi les déclarations trop confiantes en premier lieu.
Des travaux antérieurs ont déjà montré que les modèles d'IA médicale peuvent perpétuer les préjugés et nuire aux populations marginalisées. Ils peuvent acquérir des biais pendant la formation, lorsque les ensembles de données sous-représentent certains groupes de patients ou contiennent des corrélations nuisibles44,45. Ces risques seront probablement encore plus prononcés lors du développement de GMAI. L'échelle et la complexité sans précédent des ensembles de données de formation nécessaires rendront difficile de s'assurer qu'ils sont exempts de biais indésirables. Bien que les biais posent déjà un défi pour l'IA conventionnelle dans le domaine de la santé, ils sont particulièrement pertinents pour la GMAI, car une récente évaluation à grande échelle a montré que les biais sociaux peuvent augmenter avec l'échelle du modèle46.
Les modèles GMAI doivent être soigneusement validés pour s'assurer qu'ils ne sont pas sous-performants sur des populations particulières telles que les groupes minoritaires. De plus, les modèles devront être soumis à un audit et à une réglementation continus même après le déploiement, car de nouveaux problèmes surgiront à mesure que les modèles rencontreront de nouvelles tâches et de nouveaux paramètres. Des concours dotés de prix pourraient inciter la communauté de l'IA à examiner de plus près les modèles GMAI. Par exemple, les participants peuvent être récompensés pour avoir trouvé des invites qui produisent un contenu préjudiciable ou exposent d'autres modes de défaillance. L'identification et la correction rapides des biais doivent être une priorité absolue pour les développeurs, les fournisseurs et les régulateurs.
Le développement et l'utilisation de modèles GMAI présentent de sérieux risques pour la vie privée des patients. Les modèles GMAI peuvent avoir accès à un riche ensemble de caractéristiques des patients, y compris des mesures et des signaux cliniques, des signatures moléculaires et des informations démographiques ainsi que des données de suivi comportemental et sensoriel. De plus, les modèles GMAI utiliseront probablement de grandes architectures, mais les modèles plus grands sont plus enclins à mémoriser les données de formation et à les répéter directement aux utilisateurs47. Par conséquent, il existe un risque sérieux que les modèles GMAI exposent des données sensibles sur les patients dans des ensembles de données de formation. En anonymisant et en limitant la quantité d'informations collectées pour chaque patient, les dommages causés par les données exposées peuvent être réduits.
Cependant, les problèmes de confidentialité ne se limitent pas aux données de formation, car les modèles GMAI déployés peuvent également exposer les données des patients actuels. Des attaques rapides peuvent inciter des modèles tels que GPT-3 à ignorer les instructions précédentes48. Par exemple, imaginons qu'un modèle GMAI ait reçu pour instruction de ne jamais révéler d'informations sur les patients à des utilisateurs non autorisés. Un utilisateur malveillant pourrait forcer le modèle à ignorer cette instruction pour extraire des données sensibles.
Les modèles de base récents ont considérablement augmenté en taille, entraînant une augmentation des coûts associés à la collecte de données et à la formation des modèles. Les modèles de cette échelle nécessitent des ensembles de données de formation massifs qui, dans le cas de GPT-3, contiennent des centaines de milliards de jetons et sont coûteux à collecter. De plus, PaLM, un modèle de 540 milliards de paramètres développé par Google, a nécessité environ 8,4 millions d'heures de puces d'unité de traitement de tenseur v4 pour la formation, utilisant environ 3 000 à 6 000 puces à la fois, ce qui représente des millions de dollars en coûts de calcul49 . De plus, le développement de modèles aussi grands entraîne un coût environnemental substantiel, car il a été estimé que la formation de chaque modèle génère jusqu'à des centaines de tonnes d'équivalent CO250.
Ces coûts soulèvent la question de la taille des ensembles de données et des modèles. Une étude récente a établi un lien entre la taille de l'ensemble de données et la taille du modèle, recommandant 20 fois plus de jetons que de paramètres pour des performances optimales, mais les modèles de base existants ont été entraînés avec succès avec un rapport jeton/paramètre inférieur51. Il reste donc difficile d'estimer la taille des modèles et des ensembles de données lors du développement de modèles GMAI, en particulier parce que l'échelle nécessaire dépend fortement du cas d'utilisation médicale particulier.
La collecte de données posera un défi particulier pour le développement de la GMAI, en raison du besoin de quantités sans précédent de données médicales. Les modèles de base existants sont généralement formés sur des données hétérogènes obtenues en explorant le Web, et ces sources de données à usage général peuvent potentiellement être utilisées pour pré-entraîner des modèles GMAI (c'est-à-dire effectuer un premier cycle préparatoire de formation). Bien que ces ensembles de données ne se concentrent pas sur la médecine, une telle formation préalable peut doter les modèles GMAI de capacités utiles. Par exemple, en s'appuyant sur des textes médicaux présents dans leurs ensembles de données de formation, des modèles à usage général tels que Flan-PaLM ou ChatGPT peuvent répondre avec précision à des questions médicales, obtenant des notes de passage à l'examen de licence médicale des États-Unis10,52,53. Néanmoins, le développement du modèle GMAI nécessitera probablement aussi des ensembles de données massifs qui se concentrent spécifiquement sur le domaine médical et ses modalités. Ces ensembles de données doivent être divers, anonymisés et organisés dans des formats compatibles, et les procédures de collecte et de partage des données devront se conformer aux politiques hétérogènes entre les institutions et les régions. Bien que la collecte d'ensembles de données aussi volumineux posera un défi considérable, ces données ne nécessiteront généralement pas d'étiquettes d'experts coûteuses, compte tenu du succès de l'auto-supervision9,54. De plus, des techniques d'auto-supervision multimodales peuvent être utilisées pour former des modèles sur plusieurs ensembles de données contenant des mesures de quelques modalités chacune, réduisant ainsi le besoin d'ensembles de données volumineux et coûteux contenant des mesures de nombreuses modalités par patient. En d'autres termes, un modèle peut être formé sur un ensemble de données avec des données EHR et IRM et un second avec des données EHR et génomiques, sans nécessiter un grand ensemble de données contenant conjointement des données EHR, IRM et génomiques. Les efforts de partage de données à grande échelle, tels que la base de données MIMIC (Medical Information Mart for Intensive Care)55 ou la UK Biobank56, joueront un rôle essentiel dans la GMAI, et ils devraient être étendus aux pays sous-représentés pour créer des informations plus vastes, plus riches et plus inclusives. ensembles de données de formation.
La taille des modèles GMAI entraînera également des défis techniques. En plus d'être coûteux à former, les modèles GMAI peuvent être difficiles à déployer, nécessitant du matériel spécialisé haut de gamme auquel les hôpitaux peuvent avoir du mal à accéder. Pour certains cas d'utilisation (par exemple, les chatbots), les modèles GMAI peuvent être stockés sur des clusters de calcul centraux maintenus par des organisations ayant une expertise technique approfondie, comme DALL-E ou GPT-3. Cependant, d'autres modèles GMAI peuvent devoir être déployés localement dans les hôpitaux ou d'autres établissements médicaux, éliminant ainsi le besoin d'une connexion réseau stable et conservant les données sensibles des patients sur place. Dans ces cas, la taille du modèle peut devoir être réduite grâce à des techniques telles que la distillation des connaissances, dans lesquelles des modèles à grande échelle enseignent des modèles plus petits qui peuvent être plus facilement déployés sous des contraintes pratiques57.
Les modèles de base ont le potentiel de transformer les soins de santé. La classe de modèles de base avancés que nous avons décrite, GMAI, analysera de manière interchangeable plusieurs modalités de données, apprendra de nouvelles tâches à la volée et tirera parti des connaissances du domaine, offrant des opportunités dans une gamme presque illimitée de tâches médicales. La flexibilité de GMAI permet aux modèles de rester pertinents dans de nouveaux contextes et de suivre le rythme des maladies et des technologies émergentes sans avoir besoin d'être constamment recyclés à partir de zéro. Les applications basées sur GMAI seront déployées à la fois dans des environnements cliniques traditionnels et sur des appareils distants tels que les smartphones, et nous prévoyons qu'elles seront utiles à divers publics, permettant à la fois des applications destinées aux cliniciens et aux patients.
Malgré leurs promesses, les modèles GMAI présentent des défis uniques. Leur extrême polyvalence les rend difficiles à valider de manière exhaustive et leur taille peut entraîner des coûts de calcul accrus. Il y aura des difficultés particulières associées à la collecte et à l'accès aux données, car les ensembles de données de formation de GMAI doivent être non seulement volumineux mais aussi diversifiés, avec des protections adéquates de la vie privée. Nous implorons la communauté de l'IA et les parties prenantes cliniques d'examiner attentivement ces défis dès le début, afin de garantir que GMAI offre une valeur clinique constante. En fin de compte, GMAI promet des possibilités sans précédent pour les soins de santé, en soutenant les cliniciens dans une gamme de tâches essentielles, en surmontant les obstacles à la communication, en rendant les soins de haute qualité plus largement accessibles et en réduisant le fardeau administratif des cliniciens pour leur permettre de passer plus de temps avec les patients.
Bommasani, R. et al. Sur les opportunités et les risques des modèles de fondation. Préimpression sur https://arxiv.org/abs/2108.07258 (2022).
Reed, S. et al. Un agent généraliste. Dans Transactions on Machine Learning Research (2022). Cette étude a présenté Gato, un modèle généraliste qui peut effectuer une variété de tâches à travers des modalités telles que le chat, le sous-titrage d'images, les jeux vidéo et le contrôle d'un bras de robot.
Alayrac, J.-B. et coll. Flamingo : un modèle de langage visuel pour un apprentissage en quelques coups. Dans Advances in Neural Information Processing Systems (eds Oh, AH et al.) 35, 23716–23736 (2022).
Lu, J., Clark, C., Zellers, R., Mottaghi, R. & Kembhavi, A. Unified-IO : un modèle unifié pour la vision, le langage et les tâches multimodales. Préimpression sur https://arxiv.org/abs/2206.08916 (2022).
Brown, T. et al. Les modèles de langage sont des apprenants peu nombreux. Dans Advances in Neural Information Processing Systems (eds Larochelle, H. et al.) 33, 1877–1901 (2020). Cette étude a présenté le modèle de langage GPT-3 et a découvert que de grands modèles de langage peuvent effectuer un apprentissage en contexte.
Aghajanyan, A. et al. CM3 : un modèle causal masqué multimodal de l'Internet. Préimpression sur https://arxiv.org/abs/2201.07520 (2022).
Wei, J. et al. Capacités émergentes des grands modèles de langage. Dans Transactions on Machine Learning Research (2022).
Steinberg, E. et al. Les modèles linguistiques sont une technique d'apprentissage de la représentation efficace pour les données des dossiers de santé électroniques. J. Biomed. Informer. 113, 103637 (2021).
Article PubMed Google Scholar
Tiu, E. et al. Détection de niveau expert des pathologies à partir d'images radiographiques thoraciques non annotées via un apprentissage auto-supervisé. Nat. Biomédical. Ing. 6, 1399-1406 (2022). Cette étude a démontré que CheXzero, un exemple précoce d'un modèle de base en IA médicale, peut détecter des maladies sur des radiographies pulmonaires sans annotation explicite en apprenant à partir des descriptions en langage naturel contenues dans les rapports cliniques d'accompagnement.
Singhal, K. et al. Les grands modèles de langage encodent les connaissances cliniques. Préimpression sur https://arxiv.org/abs/2212.13138 (2022). Cette étude a démontré que le modèle linguistique Flan-PaLM obtient une note de passage (67,6 %) sur un ensemble de données de questions d'examen de licence médicale aux États-Unis et a proposé Med-PaLM, une variante médicale de Flan-PaLM avec un raisonnement et une compréhension cliniques améliorés.
Yang, X. et al. Un grand modèle de langage pour les dossiers de santé électroniques. npj Chiffre. Méd. 5, 194 (2022).
Article PubMed PubMed Central Google Scholar
Administration des aliments et des médicaments. Dispositifs médicaux basés sur l'intelligence artificielle et l'apprentissage automatique (IA/ML). FDA https://www.fda.gov/medical-devices/software-medical-device-samd/artificial-intelligence-and-machine-learning-aiml-enabled-medical-devices (2022).
Acosta, JN, Falcone, GJ, Rajpurkar, P. & Topol, EJ IA biomédicale multimodale. Nat. Méd. 28, 1773-1784 (2022).
Article CAS PubMed Google Scholar
Krishnan, R., Rajpurkar, P. & Topol, EJ Apprentissage auto-supervisé en médecine et en soins de santé. Nat. Biomédical. Ing. 6, 1346–1352 (2022).
Article PubMed Google Scholar
Devlin, J., Chang, M.-W., Lee, K. & Toutanova, K. BERT : pré-entraînement des transformateurs bidirectionnels profonds pour la compréhension du langage. Dans Proc. Conférence 2019 du chapitre nord-américain de l'Association for Computational Linguistics: Human Language Technologies (eds Burstein, J., Doran, C. & Solorio, T.) 1, 4171–4186 (2019). Cet article a introduit la modélisation de langage masqué, une technique largement utilisée pour former des modèles de langage où des parties d'une séquence de texte sont masquées (masquées) afin que le modèle remplisse les blancs. Cette stratégie peut être étendue au-delà du texte à d'autres types de données.
Radford, A. et al. Apprentissage de modèles visuels transférables à partir de la supervision du langage naturel. Dans Proc. 38e Int. Conférence sur l'apprentissage automatique (eds Meila, M. & Zhang, T.) 139, 8748–8763 (2021). Cet article a introduit le pré-apprentissage contraste langage-image (CLIP), une approche multimodale qui a permis à un modèle d'apprendre à partir d'images associées à du texte brut.
Zhang, X.-A. et coll. Un hénipavirus zoonotique chez des patients fébriles en Chine. N. Engl. J. Med. 387, 470–472 (2022).
Article PubMed Google Scholar
Vaswani, A. et al. L'attention est tout ce dont vous avez besoin. Dans Advances in Neural Information Processing Systems (eds Guyon, I. et al.) 30, 5998–6008 (2017). Cet article a présenté l'architecture du transformateur, une avancée majeure qui a finalement conduit au développement de modèles de fondation à grande échelle.
Borgeaud, S. et al. Améliorer les modèles de langage en récupérant parmi des milliards de jetons. Dans Proc. 39e Int. Conférence sur l'apprentissage automatique (eds Chaudhuri, K. et al.) 162, 2206–2240 (2022).
Guu, K., Lee, K., Tung, Z., Pasupat, P. & Chang, M.-W. REALM : pré-entraînement au modèle de langage augmenté par la récupération. Dans Proc. 37e Int. Conférence sur l'apprentissage automatique (eds Daumé, H. & Singh, A.) 119, 3929–3938 (2020).
Igelstrom, E. et al. Inférence causale et estimation des effets à l'aide de données d'observation. J. Épidémiol. Santé communautaire 76, 960–966 (2022).
Article Google Scholar
Wang, Q., Huang, K., Chandak, P., Zitnik, M. & Gehlenborg, N. Étendre le modèle imbriqué pour XAI centré sur l'utilisateur : une étude de conception sur la réutilisation des médicaments basée sur GNN. IEEE Trans. Vis. Calcul. Graphique. 29, 1266-1276 (2023).
Article PubMed Google Scholar
Li, J. et al. Aligner avant de fusionner : apprentissage de la vision et de la représentation du langage avec distillation de l'élan. Dans Advances in Neural Information Processing Systems (eds Ranzato, M. et al.) 34, 9694–9705 (2021).
Google Scholar
Wang, Z. et al. SimVLM : préformation d'un modèle de langage visuel simple avec une faible supervision. Dans Int. Conférence sur les représentations d'apprentissage (eds Hofmann, K. & Rush, A.) (2022).
Yasunaga, M. et al. Pré-formation approfondie des graphes bidirectionnels de connaissance de la langue. Dans Advances in Neural Information Processing Systems (eds Oh, AH et al.) 35 (2022).
Yasunaga, M., Ren, H., Bosselut, A., Liang, P. & Leskovec, J. QA-GNN : raisonnement avec des modèles de langage et des graphes de connaissances pour répondre aux questions. Dans Proc. Conférence 2021 du chapitre nord-américain de l'Association for Computational Linguistics: Human Language Technologies (eds Toutanova, K. et al.) 535–546 (2021).
Guha Roy, A. et al. Votre classificateur dermatologique sait-il ce qu'il ne sait pas ? Détecter la longue traîne des conditions invisibles. Méd. Image anale. 75, 102274 (2022).
Article PubMed Google Scholar
Radford, A. et al. Reconnaissance vocale robuste via une supervision faible à grande échelle. Préimpression sur https://arxiv.org/abs/2212.04356 (2022).
Dixon, RF et al. Une clinique virtuelle du diabète de type 2 utilisant une surveillance continue de la glycémie et des visites d'endocrinologie. J. Diabète Sci. Technol. 14, 908–911 (2020).
Article PubMed Google Scholar
Kucera, T., Togninalli, M. & Meng-Papaxanthos, L. Modélisation générative conditionnelle pour la conception de protéines de novo avec des fonctions hiérarchiques. Bioinformatique 38, 3454–3461 (2022).
Article CAS PubMed PubMed Central Google Scholar
Rombach, R., Blattmann, A., Lorenz, D., Esser, P. & Ommer, B. Synthèse d'images haute résolution avec modèles de diffusion latente. Dans Proc. Conférence IEEE/CVF sur la vision par ordinateur et la reconnaissance de formes (eds Chellappa, R. et al.) 10684–10695 (2022).
Ramesh, A. et al. Génération de texte à image zéro coup. Dans Proc. 38e Int. Conférence sur l'apprentissage automatique (eds Meila, M. & Zhang, T.) 139, 8821–8831 (2021).
Jumper, J. et al. Prédiction très précise de la structure des protéines avec AlphaFold. Nature 596, 583–589 (2021).
Article ADS CAS PubMed PubMed Central Google Scholar
Zvyagin, M. et al. GenSLMs : les modèles de langage à l'échelle du génome révèlent la dynamique évolutive du SRAS-CoV-2. Préimpression sur bioRxiv https://doi.org/10.1101/2022.10.10.511571 (2022).
Watson, JL et al. Conception de protéines largement applicable et précise en intégrant des réseaux de prédiction de structure et des modèles génératifs de diffusion. Préimpression sur bioRxiv https://doi.org/10.1101/2022.12.09.519842 (2022).
Le consortium UniProt. UniProt : la base de connaissances universelle sur les protéines. Nucleic Acids Res. 45, D158–D169 (2017).
Article Google Scholar
Guo, LL et al. Examen systématique des approches pour préserver les performances de l'apprentissage automatique en présence d'un changement temporel des ensembles de données en médecine clinique. Appl. Clin. Informer. 12, 808–815 (2021).
Article PubMed PubMed Central Google Scholar
Finlayson, SG et al. Le clinicien et l'évolution des ensembles de données dans l'intelligence artificielle. N. Engl. J. Med. 385, 283-286 (2021).
Article PubMed PubMed Central Google Scholar
Lampinen, AK et al. Les modèles de langage peuvent-ils apprendre à partir d'explications en contexte ? Dans Findings of the Association for Computational Linguistics: EMNLP 2022 (eds Goldberg, Y., Kozareva, Z. & Zhang, Y.) 537–563 (2022).
Yoon, SH, Lee, JH et Kim, B.-N. Résultats de la tomodensitométrie thoracique chez les patients hospitalisés atteints du SRAS-CoV-2 : variantes Delta versus Omicron. Radiologie 306, 252–260 (2023).
Article PubMed Google Scholar
Ouyang, L. et al. Former des modèles de langage pour suivre les instructions avec une rétroaction humaine. Dans Advances in Neural Information Processing Systems (eds Oh, AH et al.) 35, 27730–27744 (2022).
Pilipiszyn, A. GPT-3 alimente la prochaine génération d'applications. OpenAI https://openai.com/blog/gpt-3-apps/ (2021).
Burns, C., Ye, H., Klein, D. & Steinhardt, J. Découvrir des connaissances latentes dans des modèles de langage sans supervision. Préimpression sur https://arxiv.org/abs/2212.03827 (2022).
Obermeyer, Z., Powers, B., Vogeli, C. & Mullainathan, S. Dissection des préjugés raciaux dans un algorithme utilisé pour gérer la santé des populations. Sciences 366, 447-453 (2019).
Article ADS CAS PubMed Google Scholar
Préjugés sexistes et sexistes dans la technologie et l'intelligence artificielle : applications en biomédecine et en soins de santé (universitaire, 2022).
Srivastava, A. et al. Au-delà du jeu de l'imitation : quantifier et extrapoler les capacités des modèles de langage. Préimpression sur https://arxiv.org/abs/2206.04615 (2022).
Carlini, N. et al. Extraction de données d'entraînement à partir de grands modèles de langage. Dans Proc. 30e Symposium sur la sécurité USENIX (eds Bailey, M. & Greenstadt, R.) 6, 2633–2650 (2021).
Branch, HJ et al. Évaluer la susceptibilité des modèles de langage pré-formés via des exemples contradictoires fabriqués à la main. Préimpression sur https://arxiv.org/abs/2209.02128 (2022).
Chowdhery, A. et al. PaLM : mise à l'échelle de la modélisation du langage avec des parcours. Préimpression sur https://arxiv.org/abs/2204.02311 (2022).
Zhang, S. et al. OPT : modèles de langage de transformateur ouverts pré-formés. Préimpression sur https://arxiv.org/abs/2205.01068 (2022).
Hoffmann, J. et al. Une analyse empirique de la formation de grands modèles de langage optimaux pour le calcul. Dans Advances in Neural Information Processing Systems (eds Oh, AH et al.) 35, 30016–30030 (2022).
Chung, HW et al. Mise à l'échelle des modèles de langage affinés aux instructions. Préimpression sur https://arxiv.org/abs/2210.11416 (2022).
Kung, TH et al. Performance de ChatGPT sur USMLE : potentiel pour l'enseignement médical assisté par l'IA à l'aide de grands modèles de langage. Creusez PLoS. Santé 2, 2 (2023).
Huang, S.-C., Shen, L., Lungren, MP & Yeung, S. GLoRIA : un cadre d'apprentissage de représentation global-local multimodal pour la reconnaissance d'images médicales efficace par étiquette. Dans Proc. IEEE/CVF Int. Conférence sur la vision par ordinateur (eds Brown, MS et al.) 3942–3951 (2021).
Johnson, AEW et al. MIMIC-IV, un ensemble de données de dossier de santé électronique librement accessible. Sci. Données 10, 1 (2023).
Article PubMed PubMed Central Google Scholar
Sudlow, C. et al. UK Biobank : une ressource en libre accès pour identifier les causes d'un large éventail de maladies complexes de l'âge moyen et de la vieillesse. PLoS Med. 12, e1001779 (2015).
Article PubMed PubMed Central Google Scholar
Gou, J., Yu, B., Maybank, SJ et Tao, D. Distillation des connaissances : une enquête. Int. J. Comput. Vis. 129, 1789–1819 (2021).
Article Google Scholar
Vegunta, R., Vegunta, R. & Kutti Sridharan, G. Fistule aortoduodénale secondaire se présentant comme une hémorragie gastro-intestinale et une fongémie. Cureus 11, e5575 (2019).
PubMed PubMed Central Google Scholar
Télécharger les références
Nous tenons à remercier I. Kohane pour ses commentaires perspicaces qui ont amélioré le manuscrit. EJT est soutenu par la subvention UL1TR001114 du National Center for Advancing Translational Sciences des National Institutes of Health (NIH). Le MM est soutenu par la Defense Advanced Research Projects Agency (DARPA) N660011924033 (MCS), le NIH National Institute of Neurological Disorders and Stroke R61 NS11865, GSK et le Wu Tsai Neurosciences Institute. JL a été soutenu par la DARPA sous les numéros HR00112190039 (TAMI) et N660011924033 (MCS), le Bureau de recherche de l'armée sous les numéros W911NF-16-1-0342 (MURI) et W911NF-16-1-0171 (DURIP), le National Science Fondation sous les n° OAC-1835598 (CINES), OAC-1934578 (HDR) et CCF-1918940 (Expéditions), le NIH sous le n°. 3U54HG010426-04S1 (HuBMAP), Stanford Data Science Initiative, Wu Tsai Neurosciences Institute, Amazon, Docomo, GSK, Hitachi, Intel, JPMorgan Chase, Juniper Networks, KDDI, NEC et Toshiba.
Ces auteurs ont contribué à parts égales : Michael Moor, Oishi Banerjee
Ces auteurs ont conjointement supervisé ce travail : Eric J. Topol, Pranav Rajpurkar
Département d'informatique, Université de Stanford, Stanford, Californie, États-Unis
Michael Moor et Jure Leskovec
Département d'informatique biomédicale, Université Harvard, Cambridge, MA, États-Unis
Oishi Banerjee et Pranav Rajpurkar
Institut des politiques, de la gestion et de l'évaluation de la santé, École de santé publique Dalla Lana, Université de Toronto, Toronto, Ontario, Canada
Zahra Shakeri Hossein Abad
École de médecine de l'Université de Yale, Centre de recherche et d'évaluation des résultats, Hôpital Yale New Haven, New Haven, CT, États-Unis
Harlan M. Krumholz
Scripps Research Translational Institute, La Jolla, Californie, États-Unis
Eric J. Topol
Vous pouvez également rechercher cet auteur dans PubMed Google Scholar
Vous pouvez également rechercher cet auteur dans PubMed Google Scholar
Vous pouvez également rechercher cet auteur dans PubMed Google Scholar
Vous pouvez également rechercher cet auteur dans PubMed Google Scholar
Vous pouvez également rechercher cet auteur dans PubMed Google Scholar
Vous pouvez également rechercher cet auteur dans PubMed Google Scholar
Vous pouvez également rechercher cet auteur dans PubMed Google Scholar
PR a conçu l'étude. MM, OB, EJT et PR ont conçu l'article de synthèse. MM et OB ont largement contribué à la synthèse et à la rédaction de l'article. ZSHA et MM ont conçu et réalisé les illustrations. Tous les auteurs ont fourni des commentaires critiques et contribué de manière substantielle à la révision du manuscrit.
Correspondance à Eric J. Topol ou Pranav Rajpurkar.
Au cours des trois dernières années, HMK a reçu des dépenses et/ou des honoraires personnels de UnitedHealth, Element Science, Eyedentifeye et F-Prime ; est co-fondateur de Refactor Health et HugoHealth ; et est associé à des contrats, via l'hôpital Yale New Haven, des Centers for Medicare & Medicaid Services et via l'Université de Yale de la Food and Drug Administration, Johnson & Johnson, Google et Pfizer. Les autres auteurs ne déclarent aucun intérêt concurrent.
Nature remercie Arman Cohan, Joseph Ledsam et Jenna Wiens pour leur contribution à l'examen par les pairs de ce travail.
Note de l'éditeur Springer Nature reste neutre en ce qui concerne les revendications juridictionnelles dans les cartes publiées et les affiliations institutionnelles.
Springer Nature ou son concédant (par exemple une société ou un autre partenaire) détient les droits exclusifs sur cet article en vertu d'un accord de publication avec le ou les auteurs ou autre(s) titulaire(s) des droits ; l'auto-archivage par l'auteur de la version manuscrite acceptée de cet article est uniquement régi par les termes de cet accord de publication et la loi applicable.
Réimpressions et autorisations
Moor, M., Banerjee, O., Abad, ZSH et al. Modèles de base pour l'intelligence artificielle médicale généraliste. Nature 616, 259-265 (2023). https://doi.org/10.1038/s41586-023-05881-4
Télécharger la citation
Reçu : 03 novembre 2022
Accepté : 22 février 2023
Publié: 12 avril 2023
Date d'émission : 13 avril 2023
DOI : https://doi.org/10.1038/s41586-023-05881-4
Toute personne avec qui vous partagez le lien suivant pourra lire ce contenu :
Désolé, aucun lien partageable n'est actuellement disponible pour cet article.
Fourni par l'initiative de partage de contenu Springer Nature SharedIt
Oeil (2023)
npj Oncologie de précision (2023)
En soumettant un commentaire, vous acceptez de respecter nos conditions d'utilisation et nos directives communautaires. Si vous trouvez quelque chose d'abusif ou qui ne respecte pas nos conditions ou directives, veuillez le signaler comme inapproprié.