menu
close

医疗AI系统在图像分析中无法理解否定词

麻省理工学院(MIT)的研究人员发现,用于医学影像分析的视觉-语言模型无法理解“无”“不是”等否定词,这可能导致危险的误诊。在否定任务测试中,这些AI系统的表现与随机猜测无异,引发了对其在医疗环境中部署的严重担忧。研究团队开发了一个名为NegBench的新基准,并提出了可将否定理解能力提升至28%的解决方案。
医疗AI系统在图像分析中无法理解否定词

麻省理工学院(MIT)本周发布的新研究指出,用于医学影像分析的人工智能系统存在关键缺陷,可能危及患者安全。

该研究由研究生Kumail Alhamoud和副教授Marzyeh Ghassemi领导,揭示了目前广泛应用于医疗领域的视觉-语言模型(VLMs)在分析医学图像时,根本无法理解“无”“不是”等否定词。

“这些否定词可能产生非常重大的影响,如果我们盲目使用这些模型,可能会带来灾难性后果。”该研究的第一作者Alhamoud警告道。

研究人员通过一个临床实例展示了这一问题:如果一名放射科医生在胸部X光片中发现组织肿胀但没有心脏增大,AI系统可能会错误地检索到同时存在两种情况的病例,从而导致完全不同的诊断。经过正式测试后,这些AI模型在否定任务中的表现与随机猜测无异。

为了解决这一关键局限,团队开发了NegBench——一个涵盖图像、视频和医学数据集、包含18种任务变体和7.9万个样本的综合评估框架。他们提出的解决方案是用包含数百万条否定描述的专门数据集对VLMs进行再训练,取得了有希望的结果——否定查询的召回率提升了10%,带有否定描述的多项选择题准确率提升了28%。

“如果像否定这样基本的能力都存在缺陷,我们就不应该像现在这样,在没有严格评估的情况下广泛使用大型视觉/语言模型。”Ghassemi强调,在高风险医疗环境部署这些系统前,必须进行谨慎评估。

该研究由OpenAI和牛津大学的合作者共同参与,并将在即将召开的计算机视觉与模式识别大会(CVPR)上发表。团队已公开发布其基准和代码,以帮助应对这一关键的AI安全问题。

Source:

Latest News