Uma falha crítica em sistemas de inteligência artificial usados para analisar imagens médicas pode colocar pacientes em risco, segundo uma nova pesquisa do MIT publicada nesta semana.
O estudo, liderado pelo estudante de pós-graduação Kumail Alhamoud e pela professora associada Marzyeh Ghassemi, revela que modelos de visão e linguagem (VLMs) – sistemas de IA amplamente utilizados em ambientes de saúde – falham fundamentalmente em compreender palavras de negação como 'não' ao analisar imagens médicas.
"Essas palavras de negação podem ter um impacto muito significativo, e se estivermos apenas usando esses modelos cegamente, podemos enfrentar consequências catastróficas", alerta Alhamoud, autor principal do estudo.
Os pesquisadores demonstraram esse problema por meio de um exemplo clínico: se um radiologista examina um raio-X de tórax que mostra inchaço no tecido, mas sem aumento do coração, um sistema de IA pode recuperar incorretamente casos com ambas as condições, levando potencialmente a um diagnóstico totalmente diferente. Quando testados formalmente, esses modelos de IA tiveram desempenho equivalente ao de um palpite aleatório em tarefas envolvendo negação.
Para enfrentar essa limitação crítica, a equipe desenvolveu o NegBench, uma estrutura abrangente de avaliação que abrange 18 variações de tarefas e 79.000 exemplos em conjuntos de dados de imagens, vídeos e medicina. A solução proposta envolve o re-treinamento dos VLMs com conjuntos de dados especialmente criados contendo milhões de legendas negadas, o que apresentou resultados promissores – melhorando o recall em consultas negadas em 10% e aumentando a precisão em questões de múltipla escolha com legendas negadas em 28%.
"Se algo tão fundamental quanto a negação está quebrado, não deveríamos estar usando grandes modelos de visão/linguagem da forma como estamos agora – sem uma avaliação intensiva", alerta Ghassemi, destacando a necessidade de uma avaliação cuidadosa antes de implantar esses sistemas em ambientes médicos de alto risco.
A pesquisa, que conta com colaboradores da OpenAI e da Universidade de Oxford, será apresentada na próxima Conferência sobre Visão Computacional e Reconhecimento de Padrões. A equipe disponibilizou publicamente seu benchmark e código para ajudar a enfrentar essa questão crítica de segurança em IA.