AI视觉模型在医学影像中未能通过关键否定测试

麻省理工学院（MIT）研究人员发现，广泛应用于医学影像分析的视觉-语言模型（VLMs）无法理解“无”“不是”等否定词。这一关键缺陷可能导致AI系统在按特定标准检索医学影像时出现严重诊断错误。该研究于2025年5月14日发表，并推出了新的评测基准NegBench，以评估和提升AI视觉系统对否定的理解能力。

麻省理工学院（MIT）研究人员的一项新研究揭示了视觉-语言模型（VLMs）存在的一个根本性缺陷，这可能对医学诊断及其他关键应用产生严重影响。

该研究团队由MIT电气工程与计算机科学系的Kumail Alhamoud和资深作者Marzyeh Ghassemi领导。他们发现，这些越来越多被用于医学影像分析的AI系统，在面对包含“无”“不是”等否定词的查询时，无法正确理解其含义。

这一局限性在医学场景下尤为突出。例如，当放射科医生检查一张显示组织肿胀但心脏未增大的胸部X光片时，若使用AI系统查找类似病例，模型若无法区分某些病症的有无，就可能导致错误诊断。

“否定词的影响非常重大，如果我们盲目使用这些模型，可能会带来灾难性后果。”第一作者Alhamoud警告道。在测试模型识别图像描述中的否定能力时，模型的表现与随机猜测无异。

为解决这一问题，研究人员开发了NegBench，一个涵盖79,000个示例、包含18种任务变体、覆盖图像、视频及医学数据集的综合性评测基准。该基准主要评估两项核心能力：基于否定查询检索图像，以及基于否定描述回答多项选择题。

团队还构建了包含否定特定示例的数据集，对这些模型进行再训练，在否定查询的召回率上提升了10%，在带有否定描述的多选题准确率上提升了28%。不过，研究人员也提醒，解决这一问题的根本原因仍需进一步努力。

“如果像否定这样基础的能力都存在缺陷，我们就不应该在当前的许多场景下未经严格评估地使用大型视觉/语言模型。”Ghassemi强调道。

该研究将于即将召开的计算机视觉与模式识别大会（CVPR）上发表，凸显了在医疗等关键应用领域亟需更强健AI系统的紧迫性。

Source:

AI视觉模型在医学影像中未能通过关键否定测试

Latest News

字节跳动豆包AI现已支持实时视频辅助功能

一加弃用三段式开关，推出AI驱动的Plus Key按键

德国科技巨头联合竞逐欧盟支持的AI超级工厂

美国检方调查Builder.ai，微软支持的15亿美元AI初创公司破产前夕风暴再起

挪威1.8万亿美元主权基金：AI应用成为员工“硬性要求”

OpenTools.ai 推出面向科技专业人士的 AI 新闻聚合平台

谷歌通过Gemini向开发者开放AI计算机控制能力

Google为Gemini模型引入透明化思维摘要功能

AI视觉模型在医学影像中未能通过关键否定测试

Related Articles

Anthropic 的 Claude 4 模型树立全新 AI 编程标杆

分析师维持对CCC Intelligent Solutions的“适度买入”评级

NASA公布未来十年太空探索大胆AI战略

OpenAI前首席科学家曾计划为后AGI时代建造末日地堡

Latest News

字节跳动豆包AI现已支持实时视频辅助功能

一加弃用三段式开关，推出AI驱动的Plus Key按键

德国科技巨头联合竞逐欧盟支持的AI超级工厂

美国检方调查Builder.ai，微软支持的15亿美元AI初创公司破产前夕风暴再起

挪威1.8万亿美元主权基金：AI应用成为员工“硬性要求”

OpenTools.ai 推出面向科技专业人士的 AI 新闻聚合平台

谷歌通过Gemini向开发者开放AI计算机控制能力

Google为Gemini模型引入透明化思维摘要功能