Les promesses non tenues de l’intelligence artificielle en médecine

Dans un passé récent, j’avais émis des réserves envers le tout nouveau ChatGPT, la dernière merveille.
Hélas, il faut aussi déchanter…

Les promesses non tenues de l’intelligence artificielle en médecine

  • Serge Cannasse - Actualités Médicales - 5 avr. 2023

La rubrique Canal Détox de l’Inserm (Institut national de la santé et de la recherche médicale) propose un examen de l’apport actuel de l’intelligence artificielle (IA) à la recherche et la pratique clinique médicales.

Une promesse non tenue de performance diagnostique et pronostique

L’article fait un premier constat. L’IA ne tient pas sa promesse d’être plus efficace en matière de modèle diagnostique ou pronostique par rapport aux méthodes traditionnelles. Cette promesse repose sur l’intégration d’un nombre considérable de données que ne peut pas effectuer un cerveau humain. Pourtant, en pratique, elle ne fait pas toujours mieux.

Plusieurs éléments expliquent cette déception. Les performances de l’IA dépendent de la qualité des données utilisées pour l’entraîner. Or, celles-ci sont fréquemment issues d’études de faible qualité, avec des protocoles inadaptés et des échantillons trop petits et/ou peu représentatifs. De plus, ces performances sont rarement évaluées de façon indépendante. Enfin, l’IA ne tient pas compte des éléments contextuels de la prise en charge des patients, par exemple, les états émotionnels ou la qualité de la relation médecin-malade.

L’exemple de la transplantation rénale illustre bien ces limites. Dans une étude publiée en janvier 2023, des scientifiques de l’Inserm, de l’AP-HP et d’Université Paris Cité ont cherché à confronter l’IA aux modèles statistiques traditionnels de prédiction d’échec de la greffe rénale. En utilisant des données structurées et validées, émanant de cohortes internationales de patients, les chercheurs ont développé des modèles de prédiction fondés sur l’IA et des modèles s’appuyant sur des méthodes statistiques traditionnelles. « Quel que soit le type d’algorithme utilisé, l’IA obtient des performances de prédiction du risque d’échec de la greffe rénale comparables aux modèles statistiques traditionnels. »

En matière de diagnostic et de pronostic, le problème actuel n’est ainsi pas tant du côté des médecins que des patients qui courent « le risque d’obtenir des conseils erronés mettant leur santé en danger. »

Recherche : le problème des références

La rédaction d’articles scientifiques n’est pas mieux lotie. Des chercheurs espagnols ont demandé à ChatGPT de rédiger un article complet sur le rôle de l’IA dans la découverte des médicaments. Ils ont dû retravailler le texte du logiciel, celui-ci étant notamment incapable de donner des références correctes et le recueil de données s’arrêtant à 2021.

Le texte de Canal Détox conclut que « que ce soit pour développer un modèle de prédiction diagnostique ou pour rédiger un texte scientifique en s’appuyant sur ChatGPT, la question de la crédibilité, de la rigueur scientifique et de la véracité des informations relayées par l’IA est cruciale. Ce phénomène est en outre exacerbé par le manque de transparence quant au développement des modèles fondés sur l’IA qui ne connaissent du monde que l’information parfois biaisée et incomplète qu’on leur donne. »

Cela étant, les performances des systèmes d’IA iront sans doute en s’améliorant [ce sera préférable !!] C’est pourquoi la réflexion doit se poursuivre, notamment sur les plans méthodologiques et éthiques, dans le but non de remplacer médecins et chercheurs, mais de leur apporter une aide au suivi des patients, à l’optimisation des décisions thérapeutiques et à la rédaction de leurs textes.

Référence :
ChatGPT : l’IA prête à remplacer les chercheurs et les médecins, vraiment ? Inserm. Canal Détox, 22 mars 2023.

ChatGPT : un séducteur dangereux

  • Serge Cannasse
  • Actualités médicales

La mise à disposition gratuite de ChatGPT peut facilement créer la tentation d’y avoir recours en cas de symptômes inquiétants, plutôt que de consulter un moteur de recherche classique qui donne une masse considérable d’informations sans en vérifier la pertinence et la fiabilité, ou un médecin, qui n’est pas forcément accessible rapidement. Mais cet agent conversationnel est-il vraiment fiable ? Expert en médecine légale, Thomas Lefèvre (Université Sorbonne Paris Nord) répond à la question en partant d’un exemple très banal : association de céphalées, vomissements, fièvre et photophobie. ChatGPT répond qu’il s’agit vraisemblablement d’une migraine ou d’une grippe. Pas de chance ! Surtout pour le patient, il s’agissait d’une méningite.

Pour comprendre l’erreur du logiciel, il faut avoir à l’esprit quelques points. D’abord, son but n’est pas d’énoncer une vérité, mais de donner des réponses vraisemblables, qu’il a appris à formuler en se basant sur les milliards de données textuelles qui lui ont été fournies [mais pas nécessairement à jour…], sur les réponses énoncées auparavant et sur le travail des humains qui ont classé ces réponses par ordre de vraisemblance. Le problème est que nous avons tous tendance à choisir l’énoncé qui nous arrange plutôt que celui qui est exact. Dans l’exemple donné ici, le diagnostic de grippe est certes ennuyeux, mais plutôt rassurant, ce qui incite à s’en contenter.

À cela, le logiciel objectera spontanément qu’il n’est pas médecin et n’est donc pas en mesure de faire un diagnostic ou de remplacer une consultation médicale. En particulier, il ne peut pas effectuer un examen physique du patient, ni des analyses de laboratoire (ici, du liquide céphalo-rachidien après une ponction lombaire faite à l’hôpital). C’est exact, mais pour Thomas Lefèvre, il s’agit d’une réponse stéréotypée qui sert avant tout à couvrir ses propriétaires de tout risque médico-légal.

Des démarches diagnostiques ayant des points communs

Il reste néanmoins que le logiciel et le médecin font appel tous deux à trois facteurs :

  1. La mémoire, « puisque la sélection d’entrée en médecine se fait sur elle plutôt que sur les capacités de raisonnement ».
  2. La protocolisation des démarches diagnostiques et l’homogénéisation des prises en charge, qui font que la démarche médicale est de plus en plus algorithmique.
  3. Le raisonnement selon une démarche associative et probabiliste, par la recherche et l’organisation de signes associés à certaines maladies, autrement dit par une méthode qui elle aussi se base sur la vraisemblance.

Mais cela ne suffit pas à décréter que logiciel et médecin s’équivalent. En sus de l’examen physique de son patient et de la prescription d’examens complémentaires, le médecin tiendra compte d’autres facteurs que les informations obtenues, notamment la gravité potentielle de certaines des alternatives envisagées.

Certes, la répétition des questions et la précision apportée par le patient sur ses symptômes peuvent améliorer les réponses du logiciel. Mais en l’état, cela reste largement insuffisant. Ainsi, dans l’exemple donné, après que le questionneur a insisté, ChatGPT finit par évoquer la méningite. Mais pour cela, il lui a fallu un interlocuteur déjà bien au fait des informations médicales et surtout, ce diagnostic n’est présenté que comme une éventualité parmi d’autres. Pour qu’il la considère plus sérieusement, il faut ajouter des symptômes comme l’apparition de taches cutanées, qui signalent une urgence absolue ! En somme, « pour arriver à la méningite, le chemin a donc été laborieux et fuyant ».

Thomas Lefèvre conclut en écrivant que ChatGPT est avant tout « un séducteur » (il veut vous donner la réponse qui vous plaît), « une girouette » (ses réponses changent en fonction de la formulation de vos questions) et « un hypocrite » (il ne veut rien affirmer mais il donne quand même des réponses). De plus, il est « subjectif », « aveugle au conditionnement par l’intervention humaine qui se fait au cours de son apprentissage ».

Espérons que le patient n’est pas mort… :smiley: