AI视觉模型无法理解否定词，或引发医疗失误风险

麻省理工学院（MIT）研究人员发现，视觉-语言模型（VLMs）无法理解“no”“not”等否定词，在相关测试中的表现与随机猜测无异。这一根本性缺陷可能导致医疗等关键领域出现严重诊断错误，因为区分存在和不存在的病症至关重要。由Kumail Alhamoud和Marzyeh Ghassemi领导的研究团队开发了名为NegBench的基准，用于评估和改进这些模型。

一项由麻省理工学院（MIT）主导的开创性研究揭示了视觉-语言模型（VLMs）存在的关键缺陷，这一问题可能对医疗健康等高风险场景的应用产生严重影响。

在研究中，MIT研究人员发现，VLMs在现实场景中极易犯错，原因在于它们无法理解否定词——如“no”（没有）和“doesn't”（不具备）等用于描述不存在或为假的词语。“这些否定词可能产生非常重大的影响，如果我们盲目使用这些模型，可能会导致灾难性后果。”该研究的第一作者、MIT研究生Kumail Alhamoud表示。

研究人员以医学场景举例：想象一位放射科医生在检查胸部X光片时，发现患者有组织肿胀，但没有心脏增大。在这种情况下，视觉-语言模型很可能无法区分这两种情况。如果模型错误地将报告判定为两种情况都存在，诊断结果可能大相径庭：若患者既有组织肿胀又有心脏增大，往往意味着心脏相关疾病；但若无心脏增大，则可能有多种不同的潜在原因。

在测试VLMs识别图像描述中的否定词能力时，研究人员发现这些模型的表现往往与随机猜测无异。基于这一发现，团队创建了包含否定词（描述缺失物体）的图像及对应描述的数据集。结果显示，使用该数据集重新训练视觉-语言模型后，在检索不包含特定物体的图像任务中，模型性能有所提升；在带有否定描述的多项选择题中，准确率也有所提高。然而，研究人员提醒，这一问题的根源仍需进一步研究和解决。

“这不仅仅发生在‘no’和‘not’这类词上，无论你如何表达否定或排除，模型都会直接忽略。”Alhamoud表示。这一现象在所有测试过的VLMs中均有体现。问题的根源在于模型的训练方式。“图像描述只表达了图片中存在的内容——都是正向标签。这正是问题所在。没人会看到一只狗跳过篱笆的图片，然后用‘一只狗跳过篱笆，没有直升机’来描述。”资深作者Marzyeh Ghassemi解释道。由于图像-描述数据集缺乏否定表达的例子，VLMs从未学会识别否定信息。

“如果像否定这样基础的能力都存在缺陷，我们就不应该像现在这样在未经严格评估的情况下广泛应用大规模视觉/语言模型。”Ghassemi表示。她是MIT电气工程与计算机科学系副教授，同时也是医学工程科学研究所成员。该研究将在计算机视觉与模式识别大会（CVPR）上发表，团队成员还包括来自OpenAI和牛津大学的研究人员。

这一发现对安全监控、医疗健康等高风险领域具有重要意义。研究团队开发的NegBench基准，能够全面评估视觉-语言模型在否定任务上的表现，为打造具备细致语言理解能力、更健壮的AI系统迈出了关键一步，对医学诊断和语义内容检索等应用具有深远影响。

Source: Mit

AI视觉模型无法理解否定词，或引发医疗失误风险

Latest News

字节跳动豆包AI现已支持实时视频辅助功能

一加弃用三段式开关，推出AI驱动的Plus Key按键

德国科技巨头联合竞逐欧盟支持的AI超级工厂

美国检方调查Builder.ai，微软支持的15亿美元AI初创公司破产前夕风暴再起

挪威1.8万亿美元主权基金：AI应用成为员工“硬性要求”

OpenTools.ai 推出面向科技专业人士的 AI 新闻聚合平台

谷歌通过Gemini向开发者开放AI计算机控制能力

Google为Gemini模型引入透明化思维摘要功能

AI视觉模型无法理解否定词，或引发医疗失误风险

Related Articles

一加弃用三段式开关，推出AI驱动的Plus Key按键

德国科技巨头联合竞逐欧盟支持的AI超级工厂

美国检方调查Builder.ai，微软支持的15亿美元AI初创公司破产前夕风暴再起

Latest News

字节跳动豆包AI现已支持实时视频辅助功能

一加弃用三段式开关，推出AI驱动的Plus Key按键

德国科技巨头联合竞逐欧盟支持的AI超级工厂

美国检方调查Builder.ai，微软支持的15亿美元AI初创公司破产前夕风暴再起

挪威1.8万亿美元主权基金：AI应用成为员工“硬性要求”

OpenTools.ai 推出面向科技专业人士的 AI 新闻聚合平台

谷歌通过Gemini向开发者开放AI计算机控制能力

Google为Gemini模型引入透明化思维摘要功能