El entrenador de IA del MIT mejora la capacidad de resolución de problemas de los modelos de lenguaje

Investigadores del MIT han desarrollado CodeSteer, un asistente inteligente que guía a los grandes modelos de lenguaje para alternar entre la generación de texto y código hasta responder correctamente consultas complejas. El sistema incrementó la precisión de los LLM en tareas simbólicas como problemas matemáticos y razonamiento espacial en más de un 30%, permitiendo que modelos menos sofisticados superen a otros más avanzados. Este avance podría mejorar significativamente la capacidad de resolución de problemas de la IA en tareas complejas dentro de la robótica, la gestión de cadenas de suministro y otros campos que requieren razonamiento computacional preciso.

Los grandes modelos de lenguaje (LLM) destacan en la comprensión del contexto y en proporcionar respuestas lógicas mediante el razonamiento textual. Sin embargo, suelen tener dificultades con tareas computacionales que se resolverían mejor usando código, como comparar números decimales o solucionar problemas de optimización.

Para abordar esta limitación, investigadores del MIT han desarrollado CodeSteer, un asistente inteligente que actúa como entrenador para los modelos de lenguaje más grandes, guiándolos para alternar entre la generación de texto y código hasta que respondan correctamente una consulta.

"Nos inspiramos en los humanos. En los deportes, un entrenador puede no ser mejor que el atleta estrella del equipo, pero aun así puede dar sugerencias útiles para guiar al atleta. Este método de orientación también funciona para los LLM", explica Yongchao Chen, estudiante de posgrado en Harvard y MIT que participó en el proyecto.

CodeSteer, que en sí mismo es un LLM más pequeño ajustado sobre el modelo Llama-3-8B, funciona revisando una consulta y determinando si el texto o el código serían más adecuados para resolver el problema. Luego, genera indicaciones para el LLM más grande, guiándolo para que utilice el método apropiado. Si la respuesta no es correcta, CodeSteer sigue generando indicaciones para que el LLM pruebe diferentes enfoques hasta llegar a la solución correcta.

Los investigadores descubrieron que al complementar GPT-4o con CodeSteer, su precisión en tareas simbólicas aumentó en más de un 30%, elevando su puntuación promedio de desempeño de 53.3 a 86.4 en 37 tareas. Esta mejora le permitió superar incluso a modelos más avanzados como o1 de OpenAI (82.7) y DeepSeek R1 (76.8). De manera notable, CodeSteer también demostró una fuerte capacidad de generalización, proporcionando un aumento promedio del 41.8% en el desempeño al aplicarse a otros modelos como Claude, Mistral y GPT-3.5.

Para desarrollar y probar CodeSteer, los investigadores crearon SymBench, un conjunto de pruebas integral que incluye 37 tareas simbólicas con complejidad ajustable. Estas tareas abarcan matemáticas, razonamiento espacial, lógica, razonamiento de orden y problemas de optimización.

Este avance podría mejorar significativamente la capacidad de la IA para resolver problemas complejos que son difíciles de abordar solo con razonamiento textual, como generar trayectorias para robots en entornos inciertos o programar envíos en cadenas de suministro internacionales.

"Al complementar un LLM con la capacidad de usar código de manera inteligente, podemos tomar un modelo que ya es muy fuerte y mejorar aún más su desempeño", señala Chen. Actualmente, los investigadores trabajan en optimizar CodeSteer para acelerar su proceso iterativo de indicaciones y exploran cómo ajustar un modelo unificado que pueda alternar entre el razonamiento textual y la generación de código sin depender de un asistente separado.

El entrenador de IA del MIT mejora la capacidad de resolución de problemas de los modelos de lenguaje

Latest News

OpenAI unifica herramientas de IA con ChatGPT Agent para tareas autónomas

OpenAI transformará ChatGPT en un centro de compras con pago integrado de Shopify

La Automatización con IA Impulsa el Crecimiento de Tech Mahindra a Pesar de los Retos en TI

xAI lanza compañeros de IA sexualizados en medio de acuerdo con el Pentágono

La IA de Google ahora realiza llamadas telefónicas por ti

Thinking Machines Lab de Murati obtiene $2 mil millones para la revolución de la IA

S&P Global presenta metadatos listos para IA para transformar el análisis financiero

La Fed adopta la IA para investigación mientras estudia su impacto económico

AWS presenta sistema de enfriamiento personalizado para chips de IA de próxima generación

MIT identifica obstáculos para la ingeniería de software impulsada por IA

El entrenador de IA del MIT mejora la capacidad de resolución de problemas de los modelos de lenguaje

Related Articles

OpenAI unifica herramientas de IA con ChatGPT Agent para tareas autónomas

OpenAI transformará ChatGPT en un centro de compras con pago integrado de Shopify

La Automatización con IA Impulsa el Crecimiento de Tech Mahindra a Pesar de los Retos en TI

xAI lanza compañeros de IA sexualizados en medio de acuerdo con el Pentágono

La Fed adopta la IA para investigación mientras estudia su impacto económico

Latest News

OpenAI unifica herramientas de IA con ChatGPT Agent para tareas autónomas

OpenAI transformará ChatGPT en un centro de compras con pago integrado de Shopify

La Automatización con IA Impulsa el Crecimiento de Tech Mahindra a Pesar de los Retos en TI

xAI lanza compañeros de IA sexualizados en medio de acuerdo con el Pentágono

La IA de Google ahora realiza llamadas telefónicas por ti

Thinking Machines Lab de Murati obtiene $2 mil millones para la revolución de la IA

S&P Global presenta metadatos listos para IA para transformar el análisis financiero

La Fed adopta la IA para investigación mientras estudia su impacto económico

AWS presenta sistema de enfriamiento personalizado para chips de IA de próxima generación

MIT identifica obstáculos para la ingeniería de software impulsada por IA