Um estudo inovador do MIT revelou uma falha crítica em modelos de visão e linguagem (VLMs) que pode ter sérias implicações para seu uso na área da saúde e em outros ambientes de alto risco.
No estudo, pesquisadores do MIT constataram que os VLMs são extremamente propensos a cometer erros em situações do mundo real porque não compreendem a negação — palavras como "não" e "não tem" que especificam o que é falso ou ausente. "Essas palavras de negação podem ter um impacto muito significativo, e se usarmos esses modelos cegamente, podemos enfrentar consequências catastróficas", afirma Kumail Alhamoud, estudante de pós-graduação do MIT e autor principal do estudo.
Os pesquisadores ilustram o problema com um exemplo médico: imagine um radiologista analisando um raio-X de tórax e percebendo que o paciente apresenta inchaço nos tecidos, mas não tem o coração aumentado. Nessa situação, os modelos de visão e linguagem provavelmente não conseguiriam distinguir entre essas condições. Se o modelo identificar erroneamente laudos com ambas as condições, as implicações para o diagnóstico podem ser significativas: um paciente com inchaço nos tecidos e coração aumentado provavelmente tem uma condição cardíaca, mas sem o coração aumentado, podem haver várias outras causas subjacentes.
Ao testar a capacidade dos modelos de visão e linguagem para identificar negação em legendas de imagens, os pesquisadores descobriram que os modelos frequentemente apresentavam desempenho equivalente ao de um palpite aleatório. Com base nesses achados, a equipe criou um conjunto de dados de imagens com legendas correspondentes que incluem palavras de negação descrevendo objetos ausentes. Eles demonstraram que re-treinar um modelo de visão e linguagem com esse conjunto de dados leva a melhorias de desempenho quando o modelo é solicitado a recuperar imagens que não contêm determinados objetos. Também aumenta a precisão em perguntas de múltipla escolha com legendas negadas. No entanto, os pesquisadores alertam que ainda é necessário mais trabalho para abordar as causas fundamentais desse problema.
"Isso não acontece apenas com palavras como 'não' e 'nem'. Independentemente de como você expressa negação ou exclusão, os modelos simplesmente ignoram", diz Alhamoud. Isso foi consistente em todos os VLMs testados. O problema de base está em como esses modelos são treinados. "As legendas expressam o que está nas imagens — são um rótulo positivo. E esse é justamente o problema. Ninguém olha para uma imagem de um cachorro pulando uma cerca e faz a legenda dizendo 'um cachorro pulando uma cerca, sem helicópteros'", explica a autora sênior Marzyeh Ghassemi. Como os conjuntos de dados de imagens e legendas não contêm exemplos de negação, os VLMs nunca aprendem a identificá-la.
"Se algo tão fundamental quanto a negação está quebrado, não deveríamos estar usando grandes modelos de visão/linguagem da forma como estamos agora — sem uma avaliação intensiva", diz Ghassemi, professora associada do Departamento de Engenharia Elétrica e Ciência da Computação e membro do Instituto de Ciências de Engenharia Médica. A pesquisa, que será apresentada na Conference on Computer Vision and Pattern Recognition, foi conduzida por uma equipe que inclui pesquisadores do MIT, OpenAI e Universidade de Oxford.
Essa descoberta tem implicações significativas para áreas de alto risco, como monitoramento de segurança e saúde. O trabalho dos pesquisadores, que inclui o desenvolvimento do NegBench, um benchmark abrangente para avaliar modelos de visão e linguagem em tarefas específicas de negação, representa um passo importante rumo a sistemas de IA mais robustos, capazes de compreender nuances da linguagem, com implicações críticas para diagnósticos médicos e recuperação semântica de conteúdo.