AI模型未通过基础医学伦理测试，西奈山研究揭示隐忧

西奈山医学院与以色列拉宾医疗中心的研究人员联合发布了一项开创性研究，显示即便是最先进的AI模型（包括ChatGPT），在应对医学伦理情境时也会犯下令人惊讶的基础性错误。该研究于2025年7月24日发表在《npj数字医学》期刊上，结果显示，当面对稍作修改的伦理困境时，AI系统往往会选择熟悉但错误的答案，这引发了其在医疗环境中可靠性的严重担忧。研究强调，在将AI应用于医学决策时，必须有人工监督以确保安全。

西奈山伊坎医学院与以色列拉宾医疗中心的研究人员发现，人工智能在处理医学伦理决策时存在令人担忧的缺陷，如果不加以控制，可能会危及患者护理。

该研究于7月24日发表在《npj数字医学》期刊上，测试了包括ChatGPT在内的多款商用大语言模型（LLM），通过对经典伦理困境稍作修改后进行考察。结果显示，即便面对明显相悖的信息，AI依然倾向于选择直观但错误的答案。

“AI可以非常强大且高效，但我们的研究表明，它可能会默认选择最熟悉或最直观的答案，即使这种选择忽视了关键细节。”西奈山Windreich人工智能与人类健康系生成式AI负责人、论文共同资深作者Eyal Klang博士解释道，“在医疗领域，决策具有重大的伦理和临床影响，忽略这些细节可能会对患者造成实际后果。”

在一项具有代表性的测试中，研究人员对经典的“外科医生困境”进行了修改，明确指出男孩的父亲就是外科医生，消除了所有歧义。尽管信息已十分清晰，多个AI模型仍错误地坚持认为外科医生应是男孩的母亲，显示出AI即使面对新信息也会固守熟悉的模式。

类似地，在涉及宗教父母与输血的情境中，即便案例已明确说明父母同意了输血，AI模型仍建议无视父母的反对意见，显示出对细节的忽略。

“对熟悉案例的简单调整就暴露了AI的盲点，而这些盲点是临床医生无法忽视的。”论文第一作者、拉宾医疗中心血液学研究所Shelly Soffer博士指出，“这再次强调，在将AI应用于患者护理时，人工监督必须始终处于核心地位。”

研究团队受丹尼尔·卡尼曼《思考，快与慢》一书启发，发现AI同样表现出类似人类的‘快思维’倾向，但往往缺乏在必要时转向更深层次分析性思维的能力。

展望未来，西奈山团队计划建立“AI保障实验室”，系统评估不同模型在现实医疗复杂性中的表现。研究人员强调，AI应作为临床专业知识的补充，而非替代，尤其是在伦理敏感或高风险决策中。

Source:

AI模型未通过基础医学伦理测试，西奈山研究揭示隐忧

Latest News

AI新闻平台进化：OpenTools.AI推出每日简报

Google发布Opal：无需编程即可构建AI迷你应用

阿里巴巴发布先进AI平台，加速全球创新

全新AI监管框架重塑医疗与金融服务业

特朗普的人工智能计划引发创新与安全之争

量子突破助力AI计算效率提升10倍

人工智能变革金融、医疗与安全行业

OpenTools.ai 推出升级版 AI 新闻聚合平台

上海举办创纪录世界人工智能大会，全球科技竞赛加剧

AI模型未通过基础医学伦理测试，西奈山研究揭示隐忧

Related Articles

AI新闻平台进化：OpenTools.AI推出每日简报

Google发布Opal：无需编程即可构建AI迷你应用

阿里巴巴发布先进AI平台，加速全球创新

全新AI监管框架重塑医疗与金融服务业

Latest News

AI新闻平台进化：OpenTools.AI推出每日简报

Google发布Opal：无需编程即可构建AI迷你应用

阿里巴巴发布先进AI平台，加速全球创新

全新AI监管框架重塑医疗与金融服务业

特朗普的人工智能计划引发创新与安全之争

量子突破助力AI计算效率提升10倍

人工智能变革金融、医疗与安全行业

OpenTools.ai 推出升级版 AI 新闻聚合平台

上海举办创纪录世界人工智能大会，全球科技竞赛加剧