Un groupe de médecins a défié l’intelligence artificielle : qui a posé les diagnostics les plus précis

Immagine

Les usages de l’intelligence artificielle dans le domaine médical suscitent de nombreux débats. Les résultats d’études récentes mettent en lumière l’écart entre les performances des modèles linguistiques et celles des professionnels de santé, soulevant des questions sur leur potentiel futur.

Image

Les applications de l’intelligence artificielle générative en médecine, notamment en milieu clinique, sont étudiées depuis un certain temps et suscitent des débats. Depuis l’arrivée des chatbots dans notre vie quotidienne, plusieurs cas cliniques ont été rapportés, où des solutions ont été apportées par ChatGPT et des systèmes similaires. Toutefois, des incidents préoccupants sont également survenus, tel celui d’un homme aux États-Unis ayant développé une grave maladie psychique suite à un conseil erroné de ChatGPT.

L’intérêt pour les modèles linguistiques de grande taille, ou Large Language Models (LLM), en médecine est croissant, même dans le domaine de la recherche. Récemment, des chercheurs britanniques ont mis à l’épreuve ChatGPT avec un test que tous les médecins du Royaume-Unis doivent réussir pour obtenir leur licence médicale. Un groupe de chercheurs italiens s’est également penché sur les capacités des LLM en neurologie. Leur objectif était d’explorer une question fondamentale : « L’intelligence artificielle peut-elle remplacer les médecins dans le diagnostic neurologique ? »

Qui a donné les diagnostics les plus précis

Une équipe de l’Université des Études de Milan et de l’hôpital ASST Santi Paolo e Carlo a mené cette étude pour évaluer les compétences diagnostiques de deux des LLM les plus populaires, ChatGPT de OpenAI et Gemini de Google. Ils se sont basés sur des cas cliniques réels impliquant 28 patients anonymes de l’hôpital, en simuler une première consultation médicale neurologique.

Les chercheurs ont ensuite comparé les réponses des chatbots avec celles de véritables neurologues, mesurant ainsi qui des deux modèles avait obtenu le meilleur score en termes de précision diagnostique, « définie – comme indiqué dans l’étude – par l’accord avec les diagnostics de sortie ». Les résultats, publiés dans le Journal of Medical Informatics Research, sont sans appel : les neurologues ont affiché une précision diagnostique de 75%, bien supérieure à celle des deux LLM : ChatGPT a atteint 54%, tandis que Gemini s’est limité à 46%. Par ailleurs, les deux systèmes ont également montré un autre inconvénient : dans 17 à 25 % des cas, ils avaient tendance à surprescrire des examens diagnostiques inutiles.

Que signifient ces résultats

Comme le soulignent les chercheurs, il est crucial de garder à l’esprit que les systèmes testés étaient des modèles génériques, non spécifiquement formés pour le secteur médical et clinique. Les résultats semblent donc converger vers une conclusion similaire à d’autres études de ce type. Pour les auteurs, l’intelligence artificielle représente un outil aux grandes possibilités également en pratique médicale, « à condition qu’elle soit correctement développée, personnalisée et validée par des études cliniques rigoureuses », et qu’elle soit utilisée en complément du travail du médecin.

Alberto Priori, directeur du service de neurologie de l’hôpital San Paolo ASST Santi Paolo e Carlo et initiateur de l’étude, a insisté sur le fait que « l’intelligence artificielle est une ressource prometteuse, mais qu’elle ne peut pas remplacer le jugement clinique humain aujourd’hui. Notre étude ouvre la voie à une nouvelle ère de recherche afin d’intégrer ces technologies de manière efficace et sécurisée en neurologie et plus généralement en médecine ». Il a ajouté que pour garantir un usage sécurisé de l’IA par les médecins, « une formation et une certification spécifiques pour l’utilisation de l’intelligence artificielle devront être intégrées dans le cursus des étudiants en médecine et des internes. »