menu
close

Modelos de Visão por IA Não Compreendem Negação, Colocando Diagnósticos Médicos em Risco

Investigadores do MIT descobriram que os modelos de visão-linguagem (VLMs) não conseguem compreender palavras de negação como 'não', tendo um desempenho equivalente ao de escolhas aleatórias em testes. Esta falha fundamental pode levar a erros de diagnóstico graves em contextos de saúde, onde distinguir entre condições presentes e ausentes é crucial. A equipa de investigação, liderada por Kumail Alhamoud e Marzyeh Ghassemi, desenvolveu um benchmark chamado NegBench para avaliar e melhorar estes modelos.
Modelos de Visão por IA Não Compreendem Negação, Colocando Diagnósticos Médicos em Risco

Um estudo inovador do MIT revelou uma falha crítica nos modelos de visão-linguagem (VLMs) que pode ter sérias implicações para a sua utilização em saúde e outros ambientes de elevado risco.

No estudo, os investigadores do MIT descobriram que os VLMs têm uma probabilidade extremamente elevada de cometer erros em situações reais porque não compreendem a negação — palavras como "não" e "não tem" que especificam o que é falso ou está ausente. "Essas palavras de negação podem ter um impacto muito significativo e, se utilizarmos estes modelos de forma cega, podemos enfrentar consequências catastróficas", afirma Kumail Alhamoud, estudante de doutoramento no MIT e autor principal do estudo.

Os investigadores ilustram o problema com um exemplo médico: imagine um radiologista a analisar uma radiografia ao tórax e a notar que o paciente apresenta inchaço nos tecidos, mas não tem o coração aumentado. Neste cenário, os modelos de visão-linguagem provavelmente não conseguiriam distinguir entre estas condições. Se o modelo identificar incorretamente relatórios com ambas as condições, as implicações para o diagnóstico podem ser significativas: um paciente com inchaço nos tecidos e coração aumentado provavelmente tem uma condição cardíaca, mas sem o coração aumentado, podem existir várias causas subjacentes diferentes.

Ao testar a capacidade dos modelos de visão-linguagem para identificar negação em legendas de imagens, os investigadores verificaram que os modelos tinham frequentemente um desempenho equivalente ao de uma escolha aleatória. Com base nestes resultados, a equipa criou um conjunto de dados de imagens com legendas correspondentes que incluem palavras de negação a descrever objetos em falta. Demonstraram que o re-treinamento de um modelo de visão-linguagem com este conjunto de dados conduz a melhorias de desempenho quando o modelo é solicitado a recuperar imagens que não contêm determinados objetos. Também aumenta a precisão em respostas de escolha múltipla com legendas negadas. No entanto, os investigadores alertam que é necessário mais trabalho para abordar as causas profundas deste problema.

"Isto não acontece apenas com palavras como 'não'. Independentemente da forma como se expressa a negação ou exclusão, os modelos simplesmente ignoram-na", afirma Alhamoud. Esta tendência foi consistente em todos os VLMs testados. O problema de base resulta da forma como estes modelos são treinados. "As legendas expressam o que está presente nas imagens — são um rótulo positivo. E esse é, na verdade, todo o problema. Ninguém olha para uma imagem de um cão a saltar uma vedação e escreve como legenda 'um cão a saltar uma vedação, sem helicópteros'", explica Marzyeh Ghassemi, autora sénior do estudo. Como os conjuntos de dados de imagens e legendas não contêm exemplos de negação, os VLMs nunca aprendem a identificá-la.

"Se algo tão fundamental como a negação está comprometido, não deveríamos estar a utilizar grandes modelos de visão/linguagem da forma como o fazemos atualmente — sem uma avaliação intensiva", defende Ghassemi, professora associada no Departamento de Engenharia Eletrotécnica e de Computadores e membro do Instituto de Ciências de Engenharia Médica. A investigação, que será apresentada na Conference on Computer Vision and Pattern Recognition, foi conduzida por uma equipa que inclui investigadores do MIT, OpenAI e Universidade de Oxford.

Esta descoberta tem implicações significativas para domínios críticos como a monitorização de segurança e a saúde. O trabalho dos investigadores, que inclui o desenvolvimento do NegBench, um benchmark abrangente para avaliar modelos de visão-linguagem em tarefas específicas de negação, representa um passo importante para sistemas de IA mais robustos e capazes de compreender linguagem de forma mais subtil, com implicações críticas para o diagnóstico médico e a recuperação semântica de conteúdos.

Source: Mit

Latest News