Un nuevo estudio de investigadores del MIT ha revelado un fallo fundamental en los modelos de visión-lenguaje (VLM) que podría tener graves implicaciones para el diagnóstico médico y otras aplicaciones críticas.
El equipo de investigación, dirigido por Kumail Alhamoud y la autora principal Marzyeh Ghassemi del Departamento de Ingeniería Eléctrica e Informática del MIT, descubrió que estos sistemas de IA —cada vez más utilizados para analizar imágenes médicas— no logran comprender palabras de negación como 'no' y 'sin' en las consultas.
Esta limitación resulta especialmente problemática en contextos médicos. Por ejemplo, cuando un radiólogo examina una radiografía de tórax que muestra inflamación de tejido sin agrandamiento cardíaco, utilizar un sistema de IA para encontrar casos similares podría conducir a diagnósticos incorrectos si el modelo no es capaz de distinguir entre la presencia y la ausencia de determinadas afecciones.
"Esas palabras de negación pueden tener un impacto muy significativo, y si usamos estos modelos a ciegas, podríamos enfrentarnos a consecuencias catastróficas", advierte el autor principal Alhamoud. Al ser evaluados en su capacidad para identificar la negación en los subtítulos de imágenes, los modelos no obtuvieron mejores resultados que el azar.
Para abordar este problema, los investigadores desarrollaron NegBench, un benchmark integral con 79.000 ejemplos en 18 variantes de tareas que abarcan conjuntos de datos de imágenes, vídeo y medicina. El benchmark evalúa dos capacidades clave: recuperar imágenes a partir de consultas negadas y responder preguntas de opción múltiple con subtítulos que contienen negaciones.
El equipo también creó conjuntos de datos con ejemplos específicos de negación para volver a entrenar estos modelos, logrando una mejora del 10% en la recuperación de consultas negadas y un aumento del 28% en la precisión de las preguntas de opción múltiple con subtítulos negados. Sin embargo, advierten que aún queda trabajo por hacer para abordar las causas profundas de este problema.
"Si algo tan fundamental como la negación no funciona, no deberíamos estar utilizando los grandes modelos de visión/lenguaje de la manera en que lo hacemos actualmente, sin una evaluación exhaustiva", enfatiza Ghassemi.
La investigación se presentará en la próxima Conferencia sobre Visión por Computador y Reconocimiento de Patrones, destacando la urgente necesidad de sistemas de IA más robustos en aplicaciones críticas como la sanidad.