Un groupe de médecins a défié l'intelligence artificielle : qui a posé les diagnostics les plus précis

Les usages de l’intelligence artificielle dans le domaine médical suscitent de nombreux débats. Les résultats d’études récentes mettent en lumière l’écart entre les performances des modèles linguistiques et celles des professionnels de santé, soulevant des questions sur leur potentiel futur.

Les applications de l’intelligence artificielle générative en médecine, notamment en milieu clinique, sont étudiées depuis un certain temps et suscitent des débats. Depuis l’arrivée des chatbots dans notre vie quotidienne, plusieurs cas cliniques ont été rapportés, où des solutions ont été apportées par ChatGPT et des systèmes similaires. Toutefois, des incidents préoccupants sont également survenus, tel celui d’un homme aux États-Unis ayant développé une grave maladie psychique suite à un conseil erroné de ChatGPT.

L’intérêt pour les modèles linguistiques de grande taille, ou Large Language Models (LLM), en médecine est croissant, même dans le domaine de la recherche. Récemment, des chercheurs britanniques ont mis à l’épreuve ChatGPT avec un test que tous les médecins du Royaume-Unis doivent réussir pour obtenir leur licence médicale. Un groupe de chercheurs italiens s’est également penché sur les capacités des LLM en neurologie. Leur objectif était d’explorer une question fondamentale : « L’intelligence artificielle peut-elle remplacer les médecins dans le diagnostic neurologique ? »

Qui a donné les diagnostics les plus précis

Une équipe de l’Université des Études de Milan et de l’hôpital ASST Santi Paolo e Carlo a mené cette étude pour évaluer les compétences diagnostiques de deux des LLM les plus populaires, ChatGPT de OpenAI et Gemini de Google. Ils se sont basés sur des cas cliniques réels impliquant 28 patients anonymes de l’hôpital, en simuler une première consultation médicale neurologique.

Les chercheurs ont ensuite comparé les réponses des chatbots avec celles de véritables neurologues, mesurant ainsi qui des deux modèles avait obtenu le meilleur score en termes de précision diagnostique, « définie – comme indiqué dans l’étude – par l’accord avec les diagnostics de sortie ». Les résultats, publiés dans le Journal of Medical Informatics Research, sont sans appel : les neurologues ont affiché une précision diagnostique de 75%, bien supérieure à celle des deux LLM : ChatGPT a atteint 54%, tandis que Gemini s’est limité à 46%. Par ailleurs, les deux systèmes ont également montré un autre inconvénient : dans 17 à 25 % des cas, ils avaient tendance à surprescrire des examens diagnostiques inutiles.

Que signifient ces résultats

Comme le soulignent les chercheurs, il est crucial de garder à l’esprit que les systèmes testés étaient des modèles génériques, non spécifiquement formés pour le secteur médical et clinique. Les résultats semblent donc converger vers une conclusion similaire à d’autres études de ce type. Pour les auteurs, l’intelligence artificielle représente un outil aux grandes possibilités également en pratique médicale, « à condition qu’elle soit correctement développée, personnalisée et validée par des études cliniques rigoureuses », et qu’elle soit utilisée en complément du travail du médecin.

Alberto Priori, directeur du service de neurologie de l’hôpital San Paolo ASST Santi Paolo e Carlo et initiateur de l’étude, a insisté sur le fait que « l’intelligence artificielle est une ressource prometteuse, mais qu’elle ne peut pas remplacer le jugement clinique humain aujourd’hui. Notre étude ouvre la voie à une nouvelle ère de recherche afin d’intégrer ces technologies de manière efficace et sécurisée en neurologie et plus généralement en médecine ». Il a ajouté que pour garantir un usage sécurisé de l’IA par les médecins, « une formation et une certification spécifiques pour l’utilisation de l’intelligence artificielle devront être intégrées dans le cursus des étudiants en médecine et des internes. »

Un groupe de médecins a défié l’intelligence artificielle : qui a posé les diagnostics les plus précis

Qui a donné les diagnostics les plus précis

Que signifient ces résultats

Offres JIMMY Prime Day : Grosses réduction sur les purificateurs d’eau et aspirateurs anti-acariens

Lymow One Plus : la tondeuse autonome aux doubles lames rotatives à -18% !

Jimmy : Aspirateurs anti-acariens indispensables en promo jusqu’au 26 juin !

Tout ce que vous pouvez faire pour résoudre les problèmes de l’application Cita Sanitaria avant de vous décourager

Mole l’outil gratuit pour nettoyer optimiser et surveiller votre Mac

Photoshop, Lightroom et sept autres applications pour retoucher vos photos comme un pro

China réussit à récupérer sa fusée ! La suprématie spatiale de Elon Musk menacée

Design et caractéristiques du Redmi Note 17 dévoilés avant son lancement

TEST UGREEN Maxidok 17 en 1 Thunderbolt 5 : Notre verdict sur la station d’accueil qui fait tout

TEST AFERIY P280 + Extension : Batterie de 4096Wh à 1439€, le meilleur rapport qualité-prix ?

TEST UGREEN Maxidok 10 en 1 Thunderbolt 5 pour Mac Mini : La station d’accueil parfaitement taillée ?