Un estudio pionero del MIT ha puesto de manifiesto un fallo crítico en los modelos de visión-lenguaje (VLMs) que podría tener graves consecuencias para su uso en la sanidad y otros entornos de alto riesgo.
En el estudio, los investigadores del MIT descubrieron que los VLMs son extremadamente propensos a cometer errores en situaciones reales porque no comprenden la negación —palabras como "no" y "no tiene" que especifican lo que es falso o está ausente. "Esas palabras de negación pueden tener un impacto muy significativo, y si utilizamos estos modelos a ciegas, podríamos enfrentarnos a consecuencias catastróficas", afirma Kumail Alhamoud, estudiante de posgrado en el MIT y autor principal del estudio.
Los investigadores ilustran el problema con un ejemplo médico: imaginemos a un radiólogo que examina una radiografía de tórax y observa que un paciente tiene hinchazón en los tejidos pero no tiene el corazón agrandado. En un escenario así, los modelos de visión-lenguaje probablemente no distinguirían entre estas condiciones. Si el modelo identifica erróneamente informes con ambas condiciones, las implicaciones diagnósticas podrían ser importantes: un paciente con hinchazón en los tejidos y el corazón agrandado probablemente tiene una afección cardíaca, pero sin el corazón agrandado, podría haber varias causas subyacentes diferentes.
Al evaluar la capacidad de los modelos de visión-lenguaje para identificar la negación en los pies de foto de imágenes, los investigadores comprobaron que los modelos a menudo obtenían resultados equivalentes al azar. A partir de estos hallazgos, el equipo creó un conjunto de datos de imágenes con pies de foto correspondientes que incluyen palabras de negación para describir objetos ausentes. Demostraron que reentrenar un modelo de visión-lenguaje con este conjunto de datos mejora su rendimiento cuando se le pide recuperar imágenes que no contienen ciertos objetos. También aumenta la precisión en preguntas de opción múltiple con pies de foto negados. Sin embargo, los investigadores advierten que es necesario seguir trabajando para abordar las causas profundas de este problema.
"Esto no ocurre solo con palabras como 'no' y 'no'. Independientemente de cómo se exprese la negación o la exclusión, los modelos simplemente la ignoran", afirma Alhamoud. Esto fue consistente en todos los VLMs que probaron. El problema de fondo radica en cómo se entrenan estos modelos. "Los pies de foto expresan lo que hay en las imágenes —son una etiqueta positiva. Y ese es, en realidad, todo el problema. Nadie mira una imagen de un perro saltando una valla y la describe diciendo 'un perro saltando una valla, sin helicópteros'", explica la autora principal Marzyeh Ghassemi. Como los conjuntos de datos de imágenes y pies de foto no contienen ejemplos de negación, los VLMs nunca aprenden a identificarla.
"Si algo tan fundamental como la negación no funciona, no deberíamos estar utilizando grandes modelos de visión/lenguaje en muchos de los usos actuales —sin una evaluación exhaustiva", afirma Ghassemi, profesora asociada en el Departamento de Ingeniería Eléctrica e Informática y miembro del Instituto de Ciencias de la Ingeniería Médica. La investigación, que se presentará en la Conferencia sobre Visión por Computador y Reconocimiento de Patrones, ha sido realizada por un equipo que incluye investigadores del MIT, OpenAI y la Universidad de Oxford.
Este hallazgo tiene importantes implicaciones para ámbitos de alto riesgo como la monitorización de la seguridad y la sanidad. El trabajo de los investigadores, que incluye el desarrollo de NegBench, un benchmark integral para evaluar modelos de visión-lenguaje en tareas específicas de negación, representa un paso importante hacia sistemas de IA más robustos, capaces de comprender el lenguaje con matices, con implicaciones críticas para el diagnóstico médico y la recuperación semántica de contenidos.