menu
close

Les modèles d’IA échouent aux tests d’éthique médicale de base, révèle une étude du Mount Sinai

Une étude révolutionnaire menée par des chercheurs du Mount Sinai et du Rabin Medical Center montre que même les modèles d’IA les plus avancés, dont ChatGPT, commettent des erreurs étonnamment basiques lorsqu’ils sont confrontés à des scénarios d’éthique médicale. Publiée le 24 juillet 2025 dans npj Digital Medicine, la recherche révèle que les systèmes d’IA ont tendance à fournir des réponses familières mais incorrectes face à des dilemmes éthiques légèrement modifiés, soulevant de sérieuses inquiétudes quant à leur fiabilité dans le domaine de la santé. Ces résultats soulignent la nécessité cruciale d’une supervision humaine lors du déploiement de l’IA dans la prise de décision médicale.
Les modèles d’IA échouent aux tests d’éthique médicale de base, révèle une étude du Mount Sinai

Des chercheurs de l’Icahn School of Medicine du Mount Sinai et du Rabin Medical Center en Israël ont mis en évidence une faille préoccupante dans la manière dont l’intelligence artificielle traite les décisions d’éthique médicale, pouvant potentiellement mettre en danger la prise en charge des patients si elle n’est pas corrigée.

L’étude, publiée le 24 juillet dans npj Digital Medicine, a testé plusieurs grands modèles de langage commerciaux (LLM), dont ChatGPT, sur des versions légèrement modifiées de dilemmes éthiques bien connus. Les résultats ont montré que l’IA avait tendance à donner des réponses intuitives mais erronées, même face à des informations clairement contradictoires.

« L’IA peut être très puissante et efficace, mais notre étude a montré qu’elle peut se rabattre sur la réponse la plus familière ou intuitive, même si cette réponse néglige des détails essentiels », explique le Dr Eyal Klang, co-auteur principal et chef de l’IA générative au sein du Windreich Department of Artificial Intelligence and Human Health du Mount Sinai. « Dans le domaine de la santé, où les décisions ont de lourdes implications éthiques et cliniques, manquer ces nuances peut avoir de réelles conséquences pour les patients. »

Dans l’un des tests les plus révélateurs, les chercheurs ont modifié le célèbre dilemme du « chirurgien » en précisant explicitement que le père du garçon était le chirurgien, supprimant ainsi toute ambiguïté. Malgré cette clarification, plusieurs modèles d’IA ont continué d’affirmer à tort que le chirurgien devait être la mère du garçon, démontrant ainsi la tendance de l’IA à s’accrocher à des schémas familiers même lorsqu’ils sont contredits par de nouvelles informations.

De même, face à un scénario impliquant des parents religieux et une transfusion sanguine, les modèles d’IA ont recommandé d’outrepasser le refus parental, alors même que le scénario précisait clairement que les parents avaient déjà donné leur consentement à la procédure.

« De simples modifications de cas familiers ont mis en lumière des angles morts que les cliniciens ne peuvent pas se permettre », souligne la Dre Shelly Soffer, auteure principale de l’étude à l’Institut d’Hématologie du Rabin Medical Center. « Cela montre pourquoi la supervision humaine doit rester centrale lors du déploiement de l’IA dans la prise en charge des patients. »

L’équipe de recherche, inspirée par le livre « Système 1 / Système 2 : Les deux vitesses de la pensée » de Daniel Kahneman, a constaté que l’IA présente la même tendance à la pensée rapide et intuitive que les humains, mais manque souvent de la capacité à passer à un raisonnement analytique plus réfléchi lorsque cela s’avère nécessaire.

Pour la suite, l’équipe du Mount Sinai prévoit de créer un « laboratoire d’assurance IA » afin d’évaluer systématiquement la manière dont différents modèles gèrent la complexité médicale du monde réel. Les chercheurs insistent sur le fait que l’IA doit venir en complément de l’expertise clinique, et non la remplacer, en particulier dans les décisions éthiquement sensibles ou à forts enjeux.

Source:

Latest News