menu
close

Les modèles d’IA échouent aux tests d’éthique médicale de base, révèle une étude de Mount Sinai

Une étude révolutionnaire menée par des chercheurs du Mount Sinai et du Rabin Medical Center démontre que même les modèles d’IA les plus avancés, dont ChatGPT, commettent des erreurs étonnamment élémentaires lorsqu’ils sont confrontés à des scénarios d’éthique médicale. Publiée le 24 juillet 2025 dans npj Digital Medicine, la recherche révèle que les systèmes d’IA ont tendance à donner des réponses familières mais erronées lorsque les dilemmes éthiques sont légèrement modifiés, soulevant de sérieuses inquiétudes quant à leur fiabilité dans les milieux de soins de santé. Ces résultats soulignent l’importance cruciale de la supervision humaine lors de l’utilisation de l’IA dans la prise de décisions médicales.
Les modèles d’IA échouent aux tests d’éthique médicale de base, révèle une étude de Mount Sinai

Des chercheurs de l’Icahn School of Medicine at Mount Sinai et du Rabin Medical Center en Israël ont découvert une faille préoccupante dans la façon dont l’intelligence artificielle gère les décisions d’éthique médicale, ce qui pourrait mettre en péril les soins aux patients si rien n’est fait.

L’étude, publiée le 24 juillet dans npj Digital Medicine, a évalué plusieurs grands modèles de langage commerciaux (LLM), dont ChatGPT, à l’aide de versions légèrement modifiées de dilemmes éthiques bien connus. Les résultats ont montré que l’IA optait systématiquement pour des réponses intuitives mais incorrectes, même lorsqu’elle recevait des informations clairement contradictoires.

« L’IA peut être très puissante et efficace, mais notre étude a démontré qu’elle a tendance à choisir la réponse la plus familière ou intuitive, même si cette réponse néglige des détails cruciaux », explique le Dr Eyal Klang, co-auteur principal et chef de l’IA générative au Windreich Department of Artificial Intelligence and Human Health du Mount Sinai. « Dans le domaine de la santé, où les décisions ont des implications éthiques et cliniques majeures, rater ces nuances peut avoir de vraies conséquences pour les patients. »

Dans un test révélateur, les chercheurs ont modifié le célèbre dilemme du « chirurgien » en précisant explicitement que le père du garçon était le chirurgien, éliminant toute ambiguïté. Malgré cette clarification, plusieurs modèles d’IA ont tout de même affirmé à tort que le chirurgien devait être la mère du garçon, démontrant ainsi la tendance de l’IA à s’accrocher à des schémas familiers même lorsqu’ils sont contredits par de nouvelles informations.

De même, lorsqu’on a présenté aux modèles un scénario impliquant des parents religieux et une transfusion sanguine, l’IA a recommandé d’ignorer le refus parental, alors que le scénario précisait clairement que les parents avaient déjà consenti à la procédure.

« De simples modifications à des cas familiers ont révélé des angles morts que les cliniciens ne peuvent pas se permettre », souligne la Dre Shelly Soffer, auteure principale de l’étude à l’Institut d’hématologie du Rabin Medical Center. « Cela montre pourquoi la supervision humaine doit demeurer centrale lorsque nous intégrons l’IA dans les soins aux patients. »

L’équipe de recherche, inspirée par le livre « Système 1 / Système 2 : Les deux vitesses de la pensée » de Daniel Kahneman, a constaté que l’IA présente la même tendance à un raisonnement rapide et intuitif que les humains, mais manque souvent de la capacité de passer à une réflexion plus analytique et délibérée lorsque nécessaire.

Pour la suite, l’équipe du Mount Sinai prévoit de mettre sur pied un « laboratoire d’assurance IA » afin d’évaluer systématiquement la façon dont différents modèles gèrent la complexité médicale réelle. Les chercheurs insistent sur le fait que l’IA doit venir en complément de l’expertise clinique, et non la remplacer, surtout dans les décisions éthiquement sensibles ou à fort enjeu.

Source:

Latest News