西奈山伊坎医学院与以色列拉宾医疗中心的研究人员发现,人工智能在处理医学伦理决策时存在令人担忧的缺陷,如果不加以控制,可能会危及患者护理。
该研究于7月24日发表在《npj数字医学》期刊上,测试了包括ChatGPT在内的多款商用大语言模型(LLM),通过对经典伦理困境稍作修改后进行考察。结果显示,即便面对明显相悖的信息,AI依然倾向于选择直观但错误的答案。
“AI可以非常强大且高效,但我们的研究表明,它可能会默认选择最熟悉或最直观的答案,即使这种选择忽视了关键细节。”西奈山Windreich人工智能与人类健康系生成式AI负责人、论文共同资深作者Eyal Klang博士解释道,“在医疗领域,决策具有重大的伦理和临床影响,忽略这些细节可能会对患者造成实际后果。”
在一项具有代表性的测试中,研究人员对经典的“外科医生困境”进行了修改,明确指出男孩的父亲就是外科医生,消除了所有歧义。尽管信息已十分清晰,多个AI模型仍错误地坚持认为外科医生应是男孩的母亲,显示出AI即使面对新信息也会固守熟悉的模式。
类似地,在涉及宗教父母与输血的情境中,即便案例已明确说明父母同意了输血,AI模型仍建议无视父母的反对意见,显示出对细节的忽略。
“对熟悉案例的简单调整就暴露了AI的盲点,而这些盲点是临床医生无法忽视的。”论文第一作者、拉宾医疗中心血液学研究所Shelly Soffer博士指出,“这再次强调,在将AI应用于患者护理时,人工监督必须始终处于核心地位。”
研究团队受丹尼尔·卡尼曼《思考,快与慢》一书启发,发现AI同样表现出类似人类的‘快思维’倾向,但往往缺乏在必要时转向更深层次分析性思维的能力。
展望未来,西奈山团队计划建立“AI保障实验室”,系统评估不同模型在现实医疗复杂性中的表现。研究人员强调,AI应作为临床专业知识的补充,而非替代,尤其是在伦理敏感或高风险决策中。