Modelos de Visão com IA Não Compreendem Negação e Podem Gerar Erros Médicos

Pesquisadores do MIT descobriram que modelos de visão e linguagem (VLMs) não conseguem entender palavras de negação como 'não' e 'nem', apresentando desempenho equivalente ao de um palpite aleatório em testes. Essa falha fundamental pode levar a erros graves de diagnóstico em ambientes de saúde, onde distinguir entre condições presentes e ausentes é crucial. A equipe de pesquisa, liderada por Kumail Alhamoud e Marzyeh Ghassemi, desenvolveu um benchmark chamado NegBench para avaliar e aprimorar esses modelos.

Um estudo inovador do MIT revelou uma falha crítica em modelos de visão e linguagem (VLMs) que pode ter sérias implicações para seu uso na área da saúde e em outros ambientes de alto risco.

No estudo, pesquisadores do MIT constataram que os VLMs são extremamente propensos a cometer erros em situações do mundo real porque não compreendem a negação — palavras como "não" e "não tem" que especificam o que é falso ou ausente. "Essas palavras de negação podem ter um impacto muito significativo, e se usarmos esses modelos cegamente, podemos enfrentar consequências catastróficas", afirma Kumail Alhamoud, estudante de pós-graduação do MIT e autor principal do estudo.

Os pesquisadores ilustram o problema com um exemplo médico: imagine um radiologista analisando um raio-X de tórax e percebendo que o paciente apresenta inchaço nos tecidos, mas não tem o coração aumentado. Nessa situação, os modelos de visão e linguagem provavelmente não conseguiriam distinguir entre essas condições. Se o modelo identificar erroneamente laudos com ambas as condições, as implicações para o diagnóstico podem ser significativas: um paciente com inchaço nos tecidos e coração aumentado provavelmente tem uma condição cardíaca, mas sem o coração aumentado, podem haver várias outras causas subjacentes.

Ao testar a capacidade dos modelos de visão e linguagem para identificar negação em legendas de imagens, os pesquisadores descobriram que os modelos frequentemente apresentavam desempenho equivalente ao de um palpite aleatório. Com base nesses achados, a equipe criou um conjunto de dados de imagens com legendas correspondentes que incluem palavras de negação descrevendo objetos ausentes. Eles demonstraram que re-treinar um modelo de visão e linguagem com esse conjunto de dados leva a melhorias de desempenho quando o modelo é solicitado a recuperar imagens que não contêm determinados objetos. Também aumenta a precisão em perguntas de múltipla escolha com legendas negadas. No entanto, os pesquisadores alertam que ainda é necessário mais trabalho para abordar as causas fundamentais desse problema.

"Isso não acontece apenas com palavras como 'não' e 'nem'. Independentemente de como você expressa negação ou exclusão, os modelos simplesmente ignoram", diz Alhamoud. Isso foi consistente em todos os VLMs testados. O problema de base está em como esses modelos são treinados. "As legendas expressam o que está nas imagens — são um rótulo positivo. E esse é justamente o problema. Ninguém olha para uma imagem de um cachorro pulando uma cerca e faz a legenda dizendo 'um cachorro pulando uma cerca, sem helicópteros'", explica a autora sênior Marzyeh Ghassemi. Como os conjuntos de dados de imagens e legendas não contêm exemplos de negação, os VLMs nunca aprendem a identificá-la.

"Se algo tão fundamental quanto a negação está quebrado, não deveríamos estar usando grandes modelos de visão/linguagem da forma como estamos agora — sem uma avaliação intensiva", diz Ghassemi, professora associada do Departamento de Engenharia Elétrica e Ciência da Computação e membro do Instituto de Ciências de Engenharia Médica. A pesquisa, que será apresentada na Conference on Computer Vision and Pattern Recognition, foi conduzida por uma equipe que inclui pesquisadores do MIT, OpenAI e Universidade de Oxford.

Essa descoberta tem implicações significativas para áreas de alto risco, como monitoramento de segurança e saúde. O trabalho dos pesquisadores, que inclui o desenvolvimento do NegBench, um benchmark abrangente para avaliar modelos de visão e linguagem em tarefas específicas de negação, representa um passo importante rumo a sistemas de IA mais robustos, capazes de compreender nuances da linguagem, com implicações críticas para diagnósticos médicos e recuperação semântica de conteúdo.

Modelos de Visão com IA Não Compreendem Negação e Podem Gerar Erros Médicos

Latest News

Doubao AI da ByteDance Agora Oferece Assistência em Vídeo em Tempo Real

OnePlus Substitui o Alert Slider por Botão Plus com IA

Gigantes de Tecnologia Alemães se Unem para Construir Gigafábrica de IA com Apoio da UE

Promotores dos EUA Investigaram a Builder.ai Antes do Colapso da Startup de IA Avaliada em US$ 1,5 Bi

Fundo de US$ 1,8 trilhão da Noruega torna uso de IA obrigatório para funcionários

OpenTools.ai Lança Hub de Notícias de IA para Profissionais de Tecnologia

Google Expande Controle de Computadores por IA para Desenvolvedores via Gemini

Google Aperfeiçoa Modelos Gemini com Resumos Transparentes de Raciocínio

Modelos de Visão com IA Não Compreendem Negação e Podem Gerar Erros Médicos

Related Articles

OnePlus Substitui o Alert Slider por Botão Plus com IA

Gigantes de Tecnologia Alemães se Unem para Construir Gigafábrica de IA com Apoio da UE

Promotores dos EUA Investigaram a Builder.ai Antes do Colapso da Startup de IA Avaliada em US$ 1,5 Bi

Latest News

Doubao AI da ByteDance Agora Oferece Assistência em Vídeo em Tempo Real

OnePlus Substitui o Alert Slider por Botão Plus com IA

Gigantes de Tecnologia Alemães se Unem para Construir Gigafábrica de IA com Apoio da UE

Promotores dos EUA Investigaram a Builder.ai Antes do Colapso da Startup de IA Avaliada em US$ 1,5 Bi

Fundo de US$ 1,8 trilhão da Noruega torna uso de IA obrigatório para funcionários

OpenTools.ai Lança Hub de Notícias de IA para Profissionais de Tecnologia

Google Expande Controle de Computadores por IA para Desenvolvedores via Gemini

Google Aperfeiçoa Modelos Gemini com Resumos Transparentes de Raciocínio