menu
close

AI视觉模型在医学影像中未能通过关键否定测试

麻省理工学院(MIT)研究人员发现,广泛应用于医学影像分析的视觉-语言模型(VLMs)无法理解“无”“不是”等否定词。这一关键缺陷可能导致AI系统在按特定标准检索医学影像时出现严重诊断错误。该研究于2025年5月14日发表,并推出了新的评测基准NegBench,以评估和提升AI视觉系统对否定的理解能力。
AI视觉模型在医学影像中未能通过关键否定测试

麻省理工学院(MIT)研究人员的一项新研究揭示了视觉-语言模型(VLMs)存在的一个根本性缺陷,这可能对医学诊断及其他关键应用产生严重影响。

该研究团队由MIT电气工程与计算机科学系的Kumail Alhamoud和资深作者Marzyeh Ghassemi领导。他们发现,这些越来越多被用于医学影像分析的AI系统,在面对包含“无”“不是”等否定词的查询时,无法正确理解其含义。

这一局限性在医学场景下尤为突出。例如,当放射科医生检查一张显示组织肿胀但心脏未增大的胸部X光片时,若使用AI系统查找类似病例,模型若无法区分某些病症的有无,就可能导致错误诊断。

“否定词的影响非常重大,如果我们盲目使用这些模型,可能会带来灾难性后果。”第一作者Alhamoud警告道。在测试模型识别图像描述中的否定能力时,模型的表现与随机猜测无异。

为解决这一问题,研究人员开发了NegBench,一个涵盖79,000个示例、包含18种任务变体、覆盖图像、视频及医学数据集的综合性评测基准。该基准主要评估两项核心能力:基于否定查询检索图像,以及基于否定描述回答多项选择题。

团队还构建了包含否定特定示例的数据集,对这些模型进行再训练,在否定查询的召回率上提升了10%,在带有否定描述的多选题准确率上提升了28%。不过,研究人员也提醒,解决这一问题的根本原因仍需进一步努力。

“如果像否定这样基础的能力都存在缺陷,我们就不应该在当前的许多场景下未经严格评估地使用大型视觉/语言模型。”Ghassemi强调道。

该研究将于即将召开的计算机视觉与模式识别大会(CVPR)上发表,凸显了在医疗等关键应用领域亟需更强健AI系统的紧迫性。

Source:

Latest News