menu
close

Los sistemas de IA médica no comprenden la negación en el análisis de imágenes

Investigadores del MIT han descubierto que los modelos de visión y lenguaje utilizados en imágenes médicas no comprenden palabras de negación como 'no' y 'sin', lo que podría provocar diagnósticos erróneos peligrosos. Al ser evaluados en tareas de negación, estos sistemas de IA no obtuvieron mejores resultados que el azar, lo que genera serias dudas sobre su uso en entornos sanitarios. Los investigadores han desarrollado un nuevo estándar llamado NegBench y proponen soluciones que podrían mejorar la comprensión de la negación hasta en un 28%.
Los sistemas de IA médica no comprenden la negación en el análisis de imágenes

Un fallo crítico en los sistemas de inteligencia artificial empleados para analizar imágenes médicas podría poner en riesgo a los pacientes, según una nueva investigación del MIT publicada esta semana.

El estudio, dirigido por el estudiante de posgrado Kumail Alhamoud y la profesora asociada Marzyeh Ghassemi, revela que los modelos de visión y lenguaje (VLM, por sus siglas en inglés), sistemas de IA ampliamente utilizados en el ámbito sanitario, no comprenden de forma fundamental palabras de negación como 'no' y 'sin' al analizar imágenes médicas.

"Esas palabras de negación pueden tener un impacto muy significativo, y si utilizamos estos modelos a ciegas, podríamos enfrentarnos a consecuencias catastróficas", advierte Alhamoud, autor principal del estudio.

Los investigadores demostraron este problema con un ejemplo clínico: si un radiólogo examina una radiografía de tórax que muestra inflamación de tejido pero sin cardiomegalia, un sistema de IA podría recuperar incorrectamente casos que presentan ambas condiciones, lo que podría conducir a un diagnóstico completamente diferente. Cuando se evaluaron formalmente, estos modelos de IA no obtuvieron mejores resultados que el azar en tareas de negación.

Para abordar esta limitación crítica, el equipo ha desarrollado NegBench, un marco de evaluación integral que abarca 18 variantes de tareas y 79.000 ejemplos en conjuntos de datos de imágenes, vídeos y medicina. Su solución propuesta consiste en reentrenar los VLM con conjuntos de datos especialmente creados que contienen millones de descripciones con negaciones, lo que ha dado resultados prometedores: mejora el recall en consultas con negación en un 10% y aumenta la precisión en preguntas de opción múltiple con descripciones negadas en un 28%.

"Si algo tan fundamental como la negación falla, no deberíamos estar utilizando modelos grandes de visión y lenguaje en muchas de las formas en que los usamos actualmente, sin una evaluación exhaustiva", advierte Ghassemi, subrayando la necesidad de una valoración cuidadosa antes de desplegar estos sistemas en entornos médicos de alto riesgo.

La investigación, que cuenta con colaboradores de OpenAI y la Universidad de Oxford, se presentará en la próxima Conferencia sobre Visión por Computador y Reconocimiento de Patrones. El equipo ha puesto a disposición pública su estándar y código para ayudar a abordar este problema crítico de seguridad en la IA.

Source:

Latest News