menu
close

Modelos de Visão com IA Falham em Teste Crítico de Negação em Imagens Médicas

Pesquisadores do MIT descobriram que modelos de visão-linguagem, amplamente utilizados na análise de imagens médicas, não conseguem compreender palavras de negação como 'não' e 'nem'. Essa limitação crítica pode levar a erros graves de diagnóstico quando esses sistemas de IA são solicitados a recuperar imagens médicas com critérios específicos. O estudo, publicado em 14 de maio de 2025, apresenta o NegBench, um novo benchmark para avaliar e aprimorar a compreensão de negação em sistemas de visão com IA.
Modelos de Visão com IA Falham em Teste Crítico de Negação em Imagens Médicas

Um novo estudo de pesquisadores do MIT revelou uma falha fundamental em modelos de visão-linguagem (VLMs) que pode ter sérias implicações para diagnósticos médicos e outras aplicações críticas.

A equipe de pesquisa, liderada por Kumail Alhamoud e pela autora sênior Marzyeh Ghassemi, do Departamento de Engenharia Elétrica e Ciência da Computação do MIT, descobriu que esses sistemas de IA — cada vez mais utilizados para analisar imagens médicas — não conseguem compreender palavras de negação como 'não' e 'nem' em consultas.

Essa limitação se torna especialmente problemática em contextos médicos. Por exemplo, quando um radiologista examina uma radiografia de tórax mostrando inchaço no tecido sem aumento do coração, usar um sistema de IA para encontrar casos semelhantes pode levar a diagnósticos incorretos se o modelo não conseguir distinguir entre a presença e a ausência de condições específicas.

"Essas palavras de negação podem ter um impacto muito significativo e, se usarmos esses modelos cegamente, podemos enfrentar consequências catastróficas", alerta o autor principal Alhamoud. Quando testados em sua capacidade de identificar negação em legendas de imagens, os modelos tiveram desempenho equivalente ao de palpites aleatórios.

Para enfrentar esse problema, os pesquisadores desenvolveram o NegBench, um benchmark abrangente com 79.000 exemplos em 18 variações de tarefas, abrangendo conjuntos de dados de imagens, vídeos e medicina. O benchmark avalia duas capacidades principais: recuperar imagens com base em consultas negadas e responder perguntas de múltipla escolha com legendas negadas.

A equipe também criou conjuntos de dados com exemplos específicos de negação para re-treinar esses modelos, alcançando uma melhoria de 10% no recall em consultas negadas e um aumento de 28% na precisão em perguntas de múltipla escolha com legendas negadas. No entanto, eles alertam que ainda é necessário mais trabalho para abordar as causas fundamentais desse problema.

"Se algo tão fundamental quanto a negação está quebrado, não deveríamos estar usando grandes modelos de visão/linguagem da forma como estamos usando agora — sem uma avaliação intensiva", enfatiza Ghassemi.

A pesquisa será apresentada na próxima Conferência sobre Visão Computacional e Reconhecimento de Padrões, destacando a necessidade urgente de sistemas de IA mais robustos em aplicações críticas como a saúde.

Source:

Latest News