Um novo estudo realizado por investigadores do MIT revelou uma falha fundamental em modelos de visão-linguagem (VLMs) que pode ter sérias implicações para diagnósticos médicos e outras aplicações críticas.
A equipa de investigação, liderada por Kumail Alhamoud e pela autora sénior Marzyeh Ghassemi do Departamento de Engenharia Eletrotécnica e Ciência da Computação do MIT, descobriu que estes sistemas de IA — cada vez mais usados para analisar imagens médicas — não conseguem compreender palavras de negação como 'não' e 'nem' nas consultas.
Esta limitação torna-se especialmente problemática em contextos médicos. Por exemplo, quando um radiologista examina uma radiografia torácica que mostra inchaço dos tecidos sem aumento do coração, utilizar um sistema de IA para encontrar casos semelhantes pode conduzir a diagnósticos incorretos se o modelo não conseguir distinguir entre a presença e a ausência de determinadas condições.
"Essas palavras de negação podem ter um impacto muito significativo e, se utilizarmos estes modelos de forma cega, podemos enfrentar consequências catastróficas", alerta o autor principal Alhamoud. Quando testados na sua capacidade de identificar negação em legendas de imagens, os modelos não apresentaram melhores resultados do que uma escolha aleatória.
Para abordar este problema, os investigadores desenvolveram o NegBench, um benchmark abrangente com 79.000 exemplos distribuídos por 18 variações de tarefas, abrangendo conjuntos de dados de imagens, vídeo e medicina. O benchmark avalia duas capacidades essenciais: a recuperação de imagens com base em consultas negadas e a resposta a perguntas de escolha múltipla com legendas negadas.
A equipa também criou conjuntos de dados com exemplos específicos de negação para re-treinar estes modelos, conseguindo uma melhoria de 10% na recuperação de consultas negadas e um aumento de 28% na precisão em perguntas de escolha múltipla com legendas negadas. No entanto, alertam que é necessário mais trabalho para resolver as causas profundas deste problema.
"Se algo tão fundamental como a negação está comprometido, não deveríamos estar a utilizar modelos de visão/linguagem de grande escala da forma como o fazemos atualmente — sem uma avaliação intensiva", enfatiza Ghassemi.
A investigação será apresentada na próxima Conferência sobre Visão Computacional e Reconhecimento de Padrões, destacando a necessidade urgente de sistemas de IA mais robustos em aplicações críticas como a saúde.