Los modelos de visión por IA fallan en una prueba crítica de negación en imágenes médicas

Investigadores del MIT han descubierto que los modelos de visión-lenguaje, ampliamente utilizados en el análisis de imágenes médicas, no son capaces de comprender palabras de negación como 'no' y 'sin'. Esta limitación crítica podría provocar graves errores diagnósticos cuando se pide a estos sistemas de IA que recuperen imágenes médicas con criterios específicos. El estudio, publicado el 14 de mayo de 2025, presenta NegBench, un nuevo benchmark para evaluar y mejorar la comprensión de la negación en sistemas de visión por IA.

Un nuevo estudio de investigadores del MIT ha revelado un fallo fundamental en los modelos de visión-lenguaje (VLM) que podría tener graves implicaciones para el diagnóstico médico y otras aplicaciones críticas.

El equipo de investigación, dirigido por Kumail Alhamoud y la autora principal Marzyeh Ghassemi del Departamento de Ingeniería Eléctrica e Informática del MIT, descubrió que estos sistemas de IA —cada vez más utilizados para analizar imágenes médicas— no logran comprender palabras de negación como 'no' y 'sin' en las consultas.

Esta limitación resulta especialmente problemática en contextos médicos. Por ejemplo, cuando un radiólogo examina una radiografía de tórax que muestra inflamación de tejido sin agrandamiento cardíaco, utilizar un sistema de IA para encontrar casos similares podría conducir a diagnósticos incorrectos si el modelo no es capaz de distinguir entre la presencia y la ausencia de determinadas afecciones.

"Esas palabras de negación pueden tener un impacto muy significativo, y si usamos estos modelos a ciegas, podríamos enfrentarnos a consecuencias catastróficas", advierte el autor principal Alhamoud. Al ser evaluados en su capacidad para identificar la negación en los subtítulos de imágenes, los modelos no obtuvieron mejores resultados que el azar.

Para abordar este problema, los investigadores desarrollaron NegBench, un benchmark integral con 79.000 ejemplos en 18 variantes de tareas que abarcan conjuntos de datos de imágenes, vídeo y medicina. El benchmark evalúa dos capacidades clave: recuperar imágenes a partir de consultas negadas y responder preguntas de opción múltiple con subtítulos que contienen negaciones.

El equipo también creó conjuntos de datos con ejemplos específicos de negación para volver a entrenar estos modelos, logrando una mejora del 10% en la recuperación de consultas negadas y un aumento del 28% en la precisión de las preguntas de opción múltiple con subtítulos negados. Sin embargo, advierten que aún queda trabajo por hacer para abordar las causas profundas de este problema.

"Si algo tan fundamental como la negación no funciona, no deberíamos estar utilizando los grandes modelos de visión/lenguaje de la manera en que lo hacemos actualmente, sin una evaluación exhaustiva", enfatiza Ghassemi.

La investigación se presentará en la próxima Conferencia sobre Visión por Computador y Reconocimiento de Patrones, destacando la urgente necesidad de sistemas de IA más robustos en aplicaciones críticas como la sanidad.

Source:

Los modelos de visión por IA fallan en una prueba crítica de negación en imágenes médicas

Latest News

Doubao AI de ByteDance ahora ofrece asistencia en vídeo en tiempo real

OnePlus sustituye el Alert Slider por la nueva tecla Plus impulsada por IA

Gigantes tecnológicos alemanes se unen para crear una gigafactoría de IA respaldada por la UE

Fiscales estadounidenses investigaron a Builder.ai antes del colapso de la startup de IA valorada en 1.500 millones de dólares

El fondo noruego de 1,8 billones de dólares hace que la IA sea obligatoria para su plantilla

OpenTools.ai presenta un centro de noticias sobre IA para profesionales tecnológicos

Google amplía el control informático por IA a desarrolladores a través de Gemini

Google mejora los modelos Gemini con resúmenes transparentes del razonamiento

Los modelos de visión por IA fallan en una prueba crítica de negación en imágenes médicas

Related Articles

Los modelos Claude 4 de Anthropic establecen un nuevo referente en la programación con IA

Los analistas mantienen la calificación de 'Compra Moderada' para CCC Intelligent Solutions

La NASA presenta una audaz estrategia de IA para la próxima década de exploración espacial

Ex-científico de OpenAI planeó un búnker para un mundo post-AGI

Latest News

Doubao AI de ByteDance ahora ofrece asistencia en vídeo en tiempo real

OnePlus sustituye el Alert Slider por la nueva tecla Plus impulsada por IA

Gigantes tecnológicos alemanes se unen para crear una gigafactoría de IA respaldada por la UE

Fiscales estadounidenses investigaron a Builder.ai antes del colapso de la startup de IA valorada en 1.500 millones de dólares

El fondo noruego de 1,8 billones de dólares hace que la IA sea obligatoria para su plantilla

OpenTools.ai presenta un centro de noticias sobre IA para profesionales tecnológicos

Google amplía el control informático por IA a desarrolladores a través de Gemini

Google mejora los modelos Gemini con resúmenes transparentes del razonamiento