menu
close

Modelos de Visión con IA Fallan Prueba Crítica de Negación en Imágenes Médicas

Investigadores del MIT han descubierto que los modelos de visión-lenguaje, ampliamente utilizados en el análisis de imágenes médicas, no pueden comprender palabras de negación como 'no' y 'sin'. Esta limitación crítica podría provocar errores graves de diagnóstico cuando estos sistemas de IA son utilizados para recuperar imágenes médicas con criterios específicos. El estudio, publicado el 14 de mayo de 2025, presenta NegBench, un nuevo referente para evaluar y mejorar la comprensión de la negación en sistemas de visión con IA.
Modelos de Visión con IA Fallan Prueba Crítica de Negación en Imágenes Médicas

Un nuevo estudio realizado por investigadores del MIT ha revelado una falla fundamental en los modelos de visión-lenguaje (VLMs) que podría tener graves implicaciones para el diagnóstico médico y otras aplicaciones críticas.

El equipo de investigación, liderado por Kumail Alhamoud y la autora principal Marzyeh Ghassemi del Departamento de Ingeniería Eléctrica y Ciencias de la Computación del MIT, descubrió que estos sistemas de IA—que se utilizan cada vez más para analizar imágenes médicas—no logran comprender palabras de negación como 'no' y 'sin' en las consultas.

Esta limitación se vuelve especialmente problemática en contextos médicos. Por ejemplo, cuando un radiólogo examina una radiografía de tórax que muestra inflamación de tejido sin agrandamiento del corazón, utilizar un sistema de IA para encontrar casos similares podría llevar a diagnósticos incorrectos si el modelo no puede distinguir entre la presencia y la ausencia de condiciones específicas.

"Esas palabras de negación pueden tener un impacto muy significativo, y si usamos estos modelos a ciegas, podríamos enfrentarnos a consecuencias catastróficas", advierte el autor principal Alhamoud. Al ser evaluados en su capacidad para identificar la negación en los subtítulos de imágenes, los modelos no obtuvieron mejores resultados que el azar.

Para abordar este problema, los investigadores desarrollaron NegBench, un referente integral con 79,000 ejemplos en 18 variaciones de tareas que abarcan conjuntos de datos de imágenes, videos y medicina. El referente evalúa dos capacidades clave: recuperar imágenes a partir de consultas con negaciones y responder preguntas de opción múltiple con subtítulos que contienen negaciones.

El equipo también creó conjuntos de datos con ejemplos específicos de negación para reentrenar estos modelos, logrando una mejora del 10% en la recuperación de consultas con negación y un aumento del 28% en la precisión de las preguntas de opción múltiple con subtítulos negativos. Sin embargo, advierten que se necesita más trabajo para abordar las causas de fondo de este problema.

"Si algo tan fundamental como la negación está roto, no deberíamos estar utilizando modelos grandes de visión/lenguaje en muchas de las formas en que los usamos actualmente—sin una evaluación intensiva", enfatiza Ghassemi.

La investigación será presentada en la próxima Conferencia sobre Visión por Computadora y Reconocimiento de Patrones, destacando la urgente necesidad de sistemas de IA más robustos en aplicaciones críticas como la atención médica.

Source:

Latest News