menu
close

Los modelos de visión por IA fallan en una prueba crítica de negación en imágenes médicas

Investigadores del MIT han descubierto que los modelos de visión-lenguaje, ampliamente utilizados en el análisis de imágenes médicas, no son capaces de comprender palabras de negación como 'no' y 'sin'. Esta limitación crítica podría provocar graves errores diagnósticos cuando se pide a estos sistemas de IA que recuperen imágenes médicas con criterios específicos. El estudio, publicado el 14 de mayo de 2025, presenta NegBench, un nuevo benchmark para evaluar y mejorar la comprensión de la negación en sistemas de visión por IA.
Los modelos de visión por IA fallan en una prueba crítica de negación en imágenes médicas

Un nuevo estudio de investigadores del MIT ha revelado un fallo fundamental en los modelos de visión-lenguaje (VLM) que podría tener graves implicaciones para el diagnóstico médico y otras aplicaciones críticas.

El equipo de investigación, dirigido por Kumail Alhamoud y la autora principal Marzyeh Ghassemi del Departamento de Ingeniería Eléctrica e Informática del MIT, descubrió que estos sistemas de IA —cada vez más utilizados para analizar imágenes médicas— no logran comprender palabras de negación como 'no' y 'sin' en las consultas.

Esta limitación resulta especialmente problemática en contextos médicos. Por ejemplo, cuando un radiólogo examina una radiografía de tórax que muestra inflamación de tejido sin agrandamiento cardíaco, utilizar un sistema de IA para encontrar casos similares podría conducir a diagnósticos incorrectos si el modelo no es capaz de distinguir entre la presencia y la ausencia de determinadas afecciones.

"Esas palabras de negación pueden tener un impacto muy significativo, y si usamos estos modelos a ciegas, podríamos enfrentarnos a consecuencias catastróficas", advierte el autor principal Alhamoud. Al ser evaluados en su capacidad para identificar la negación en los subtítulos de imágenes, los modelos no obtuvieron mejores resultados que el azar.

Para abordar este problema, los investigadores desarrollaron NegBench, un benchmark integral con 79.000 ejemplos en 18 variantes de tareas que abarcan conjuntos de datos de imágenes, vídeo y medicina. El benchmark evalúa dos capacidades clave: recuperar imágenes a partir de consultas negadas y responder preguntas de opción múltiple con subtítulos que contienen negaciones.

El equipo también creó conjuntos de datos con ejemplos específicos de negación para volver a entrenar estos modelos, logrando una mejora del 10% en la recuperación de consultas negadas y un aumento del 28% en la precisión de las preguntas de opción múltiple con subtítulos negados. Sin embargo, advierten que aún queda trabajo por hacer para abordar las causas profundas de este problema.

"Si algo tan fundamental como la negación no funciona, no deberíamos estar utilizando los grandes modelos de visión/lenguaje de la manera en que lo hacemos actualmente, sin una evaluación exhaustiva", enfatiza Ghassemi.

La investigación se presentará en la próxima Conferencia sobre Visión por Computador y Reconocimiento de Patrones, destacando la urgente necesidad de sistemas de IA más robustos en aplicaciones críticas como la sanidad.

Source:

Latest News