ChatGPT a réussi le test pour devenir médecin : il ne lui reste qu’un défi à relever

Immagine

Des chercheurs ont soumis ChatGPT-4 à près de 200 questions inspirées d’un test médical britannique. Les résultats montrent que l’intelligence artificielle excelle dans les diagnostics, tandis que ses performances en matière de pratiques cliniques sont moins satisfaisantes, soulevant des questionnements sur son utilisation en milieu médical.

Un groupe de chercheurs a soumis ChatGPT-4 à près de 200 questions élaborées selon le modèle de l’United Kingdom Medical Licensing Assessment (UKMLA). L’intelligence artificielle a bien réussi à la majorité des questions de type diagnostic, mais a rencontré plus de difficultés avec celles relatives à la pratique clinique.

Immagine

ChatGPT-4 a réussi le test obligatoire au Royaume-Unis pour obtenir la licence médicale. Dans un autre monde, ceci indiquerait qu’il pourrait effectivement examiner, établir des diagnostics et prescrire des traitements.

Bien que cela semble être le scénario d’un épisode de Black Mirror – un sujet central de la dernière saison – il s’agit en fait du résultat d’une recherche académique menée par des universitaires anglais qui ont évalué les compétences médicales de ChatGPT-4, le dernier modèle de ChatGPT, le comparant à un médecin en herbe.

Les questions posées à ChatGPT

Au Royaume-Unis, les diplômés en Médecine ainsi que les médecins étrangers doivent réussir un test standardisé pour exercer. Ce test, appelé Medical Licensing Assessment (MLA) ou United Kingdom Medical Licensing Assessment (UKMLA), vise à évaluer les compétences médicales. L’objectif des chercheurs était de comparer la compétence médicale de GPT-4 avec le niveau requis pour un médecin junior et de discuter de son potentiel en pratique clinique. Les résultats ont été publiés dans Scientific Reports.

Les chercheurs ont posé à ChatGPT un total de 191 questions couvrant 24 domaines cliniques, regroupées en deux séries de 100 questions. Neuf questions ont été exclues car elles nécessitaient des images, et ChatGPT n’a pas pu y répondre. De plus, chaque question a été posée avec des réponses à choix multiples ainsi qu’en format ouvert.

ChatGPT-4 a répondu avec précision à la majorité des questions, atteignant une précision de 86,3 % et 89,6 % pour les réponses à choix multiples dans les deux séries. Toutefois, sans les options à choix multiples, sa précision a chuté, tombant à 61,5 % pour le premier document et à 74,7 % pour le second. Dans huit cas, ChatGPT a même mieux répondu sans options, probablement parce que ces dernières ont agi comme des « distracteurs » influençant ses réponses.

Cependant, les chercheurs ont relevé plusieurs nuances : l’intelligence artificielle réussissait généralement mieux aux questions nécessitant un raisonnement simple, marquant une différence notable par rapport à celles plus complexes. « Les LLM (modèles linguistiques de grande taille) – commentent les auteurs – peuvent traiter efficacement des scénarios cliniques, mais peinent à réellement les comprendre. »

Performances en diagnostic et en soin

Parmi les résultats, un point mérite d’être souligné : ChatGPT a bien performé sur les questions de diagnostic, avec une précision de 91,2 % avec suggestions et de 84,2 % sans suggestions. En revanche, ses performances en ce qui concerne la gestion clinique, notamment sans options, n’ont été que de 51,2 %.

En résumé, ChatGPT a passé l’examen, mais il semble bénéficier d’un meilleur fonctionnement avec des options multiples, affichant également une efficacité moindre dans la pratique clinique. Cette étude montre que ChatGPT peut dépasser l’UKMLA, « mais – précisent les chercheurs – il est mieux adapté comme outil complémentaire, de suivi ou d’apprentissage plutôt que comme outil de diagnostic ou d’interaction hospitalière ».