menu
close

Modelos de Visión con IA No Comprenden la Negación, lo que Podría Provocar Errores Médicos

Investigadores del MIT han descubierto que los modelos de visión y lenguaje (VLMs) no pueden entender palabras de negación como 'no' y 'no es', obteniendo resultados no mejores que el azar en pruebas específicas. Esta falla fundamental podría derivar en graves errores diagnósticos en entornos médicos, donde distinguir entre condiciones presentes y ausentes es esencial. El equipo de investigación, liderado por Kumail Alhamoud y Marzyeh Ghassemi, desarrolló un referente llamado NegBench para evaluar y mejorar estos modelos.
Modelos de Visión con IA No Comprenden la Negación, lo que Podría Provocar Errores Médicos

Un estudio innovador del MIT ha revelado una falla crítica en los modelos de visión y lenguaje (VLMs) que podría tener serias implicaciones para su uso en el sector salud y otros entornos de alto riesgo.

En el estudio, los investigadores del MIT encontraron que los VLMs son sumamente propensos a cometer errores en situaciones del mundo real porque no comprenden la negación —palabras como "no" y "no es" que especifican lo que es falso o está ausente. "Esas palabras de negación pueden tener un impacto muy significativo, y si usamos estos modelos a ciegas, podríamos enfrentar consecuencias catastróficas", afirma Kumail Alhamoud, estudiante de posgrado en el MIT y autor principal del estudio.

Los investigadores ilustran el problema con un ejemplo médico: imagina a un radiólogo examinando una radiografía de tórax y observando que un paciente tiene hinchazón en el tejido pero no tiene el corazón agrandado. En un escenario así, los modelos de visión y lenguaje probablemente no distinguirían entre estas condiciones. Si el modelo identifica erróneamente informes con ambas condiciones, las implicaciones diagnósticas podrían ser significativas: un paciente con hinchazón en el tejido y un corazón agrandado probablemente tiene una afección cardíaca, pero sin el corazón agrandado, podrían existir varias causas subyacentes diferentes.

Al evaluar la capacidad de los modelos de visión y lenguaje para identificar la negación en descripciones de imágenes, los investigadores encontraron que los modelos a menudo obtenían resultados equivalentes al azar. A partir de estos hallazgos, el equipo creó un conjunto de datos de imágenes con descripciones que incluyen palabras de negación para objetos ausentes. Demostraron que reentrenar un modelo de visión y lenguaje con este conjunto de datos mejora su desempeño cuando se le pide recuperar imágenes que no contienen ciertos objetos. También incrementa la precisión en preguntas de opción múltiple con descripciones negadas. Sin embargo, los investigadores advierten que se necesita más trabajo para abordar las causas de fondo de este problema.

"Esto no ocurre solo con palabras como 'no' y 'no es'. Independientemente de cómo expreses la negación o exclusión, los modelos simplemente la ignoran", señala Alhamoud. Esto fue consistente en todos los VLMs que probaron. El problema de fondo proviene de cómo se entrenan estos modelos. "Las descripciones expresan lo que hay en las imágenes —son una etiqueta positiva. Y ese es precisamente el problema. Nadie observa una imagen de un perro saltando una cerca y la describe diciendo 'un perro saltando una cerca, sin helicópteros'", explica la autora principal Marzyeh Ghassemi. Como los conjuntos de datos de imágenes y descripciones no contienen ejemplos de negación, los VLMs nunca aprenden a identificarla.

"Si algo tan fundamental como la negación está roto, no deberíamos estar usando modelos grandes de visión y lenguaje de la manera en que los usamos actualmente —sin una evaluación intensiva", afirma Ghassemi, profesora asociada en el Departamento de Ingeniería Eléctrica y Ciencias de la Computación y miembro del Instituto de Ciencias de Ingeniería Médica. La investigación, que será presentada en la Conferencia sobre Visión Computacional y Reconocimiento de Patrones, fue realizada por un equipo que incluye investigadores del MIT, OpenAI y la Universidad de Oxford.

Este hallazgo tiene importantes implicaciones para áreas de alto riesgo como la monitorización de seguridad y la atención médica. El trabajo de los investigadores, que incluye el desarrollo de NegBench, un referente integral para evaluar modelos de visión y lenguaje en tareas específicas de negación, representa un paso relevante hacia sistemas de IA más robustos capaces de comprender matices del lenguaje, con implicaciones críticas para el diagnóstico médico y la recuperación semántica de contenidos.

Source: Mit

Latest News