menu
close

Sistemas de IA Médica Falham em Compreender Negação na Análise de Imagens

Pesquisadores do MIT descobriram que modelos de visão e linguagem usados em imagens médicas não compreendem palavras de negação como 'não', o que pode levar a diagnósticos perigosos. Quando testados em tarefas de negação, esses sistemas de IA tiveram desempenho equivalente ao de um palpite aleatório, levantando sérias preocupações sobre seu uso na área da saúde. Os pesquisadores desenvolveram um novo benchmark chamado NegBench e propuseram soluções que podem melhorar a compreensão de negação em até 28%.
Sistemas de IA Médica Falham em Compreender Negação na Análise de Imagens

Uma falha crítica em sistemas de inteligência artificial usados para analisar imagens médicas pode colocar pacientes em risco, segundo uma nova pesquisa do MIT publicada nesta semana.

O estudo, liderado pelo estudante de pós-graduação Kumail Alhamoud e pela professora associada Marzyeh Ghassemi, revela que modelos de visão e linguagem (VLMs) – sistemas de IA amplamente utilizados em ambientes de saúde – falham fundamentalmente em compreender palavras de negação como 'não' ao analisar imagens médicas.

"Essas palavras de negação podem ter um impacto muito significativo, e se estivermos apenas usando esses modelos cegamente, podemos enfrentar consequências catastróficas", alerta Alhamoud, autor principal do estudo.

Os pesquisadores demonstraram esse problema por meio de um exemplo clínico: se um radiologista examina um raio-X de tórax que mostra inchaço no tecido, mas sem aumento do coração, um sistema de IA pode recuperar incorretamente casos com ambas as condições, levando potencialmente a um diagnóstico totalmente diferente. Quando testados formalmente, esses modelos de IA tiveram desempenho equivalente ao de um palpite aleatório em tarefas envolvendo negação.

Para enfrentar essa limitação crítica, a equipe desenvolveu o NegBench, uma estrutura abrangente de avaliação que abrange 18 variações de tarefas e 79.000 exemplos em conjuntos de dados de imagens, vídeos e medicina. A solução proposta envolve o re-treinamento dos VLMs com conjuntos de dados especialmente criados contendo milhões de legendas negadas, o que apresentou resultados promissores – melhorando o recall em consultas negadas em 10% e aumentando a precisão em questões de múltipla escolha com legendas negadas em 28%.

"Se algo tão fundamental quanto a negação está quebrado, não deveríamos estar usando grandes modelos de visão/linguagem da forma como estamos agora – sem uma avaliação intensiva", alerta Ghassemi, destacando a necessidade de uma avaliação cuidadosa antes de implantar esses sistemas em ambientes médicos de alto risco.

A pesquisa, que conta com colaboradores da OpenAI e da Universidade de Oxford, será apresentada na próxima Conferência sobre Visão Computacional e Reconhecimento de Padrões. A equipe disponibilizou publicamente seu benchmark e código para ajudar a enfrentar essa questão crítica de segurança em IA.

Source:

Latest News