麻省理工学院(MIT)研究人员的一项新研究揭示了视觉-语言模型(VLMs)存在的一个根本性缺陷,这可能对医学诊断及其他关键应用产生严重影响。
该研究团队由MIT电气工程与计算机科学系的Kumail Alhamoud和资深作者Marzyeh Ghassemi领导。他们发现,这些越来越多被用于医学影像分析的AI系统,在面对包含“无”“不是”等否定词的查询时,无法正确理解其含义。
这一局限性在医学场景下尤为突出。例如,当放射科医生检查一张显示组织肿胀但心脏未增大的胸部X光片时,若使用AI系统查找类似病例,模型若无法区分某些病症的有无,就可能导致错误诊断。
“否定词的影响非常重大,如果我们盲目使用这些模型,可能会带来灾难性后果。”第一作者Alhamoud警告道。在测试模型识别图像描述中的否定能力时,模型的表现与随机猜测无异。
为解决这一问题,研究人员开发了NegBench,一个涵盖79,000个示例、包含18种任务变体、覆盖图像、视频及医学数据集的综合性评测基准。该基准主要评估两项核心能力:基于否定查询检索图像,以及基于否定描述回答多项选择题。
团队还构建了包含否定特定示例的数据集,对这些模型进行再训练,在否定查询的召回率上提升了10%,在带有否定描述的多选题准确率上提升了28%。不过,研究人员也提醒,解决这一问题的根本原因仍需进一步努力。
“如果像否定这样基础的能力都存在缺陷,我们就不应该在当前的许多场景下未经严格评估地使用大型视觉/语言模型。”Ghassemi强调道。
该研究将于即将召开的计算机视觉与模式识别大会(CVPR)上发表,凸显了在医疗等关键应用领域亟需更强健AI系统的紧迫性。