西奈山伊坎医学院的研究人员揭示了人工智能在处理医学伦理决策时存在的危险缺陷,这一局限性可能对患者护理带来严重影响。
该研究于2025年7月22日发表在《NPJ数字医学》期刊上,测试了包括ChatGPT在内的多款商用大型语言模型(LLMs),通过对知名伦理困境进行细微修改。研究团队由西奈山生成式AI负责人Eyal Klang博士和AI与人类健康Windreich系主任Girish Nadkarni博士带领,发现AI系统在面对稍作变动的情景时,经常会犯下基础性错误。
在一个具有代表性的例子中,研究人员对经典的“外科医生困境”进行了修改,明确指出男孩的父亲就是外科医生。尽管信息已经非常清楚,仍有多个AI模型错误地坚持认为外科医生一定是男孩的母亲,显示出AI在面对新信息时,仍可能固守熟悉的模式。
另一项测试涉及宗教父母与输血的情景。当研究人员将设定改为父母已经同意输血时,许多AI模型依然建议要“推翻父母的拒绝”,而实际上这一拒绝已经不存在。
“AI可以非常强大且高效,但我们的研究表明,它可能会默认选择最熟悉或直观的答案,即使这种选择忽略了关键细节,”Klang博士解释道。“在医疗领域,决策往往伴随重大的伦理和临床影响,忽视这些细节可能会对患者造成实际后果。”
本项研究的灵感来自丹尼尔·卡尼曼的著作《思考,快与慢》,该书对比了快速、直觉反应与缓慢、分析性推理。研究结果表明,AI模型与人类一样,在两种思维模式之间切换时也会遇到困难。
尽管研究人员强调AI在医学领域仍有重要应用价值,但他们也指出,在需要伦理敏感性或细致判断的场合,必须有深思熟虑的人类监督。“这些工具非常有帮助,但并非万无一失,”Nadkarni博士补充道。“AI最适合作为临床专业知识的补充,而不是替代,尤其是在处理复杂或高风险决策时。”