El entrenador de IA del MIT mejora la capacidad de resolución de problemas de los modelos de lenguaje

Investigadores del MIT han desarrollado CodeSteer, un asistente inteligente que guía a los grandes modelos de lenguaje para alternar entre la generación de texto y de código hasta responder correctamente a consultas complejas. El sistema aumentó la precisión de los LLM en tareas simbólicas como problemas matemáticos y razonamiento espacial en más de un 30%, permitiendo que modelos menos sofisticados superen a otros más avanzados. Este avance podría mejorar significativamente la capacidad de resolución de problemas de la IA en tareas complejas en robótica, gestión de cadenas de suministro y otros campos que requieren razonamiento computacional preciso.

Los grandes modelos de lenguaje (LLM) destacan en la comprensión del contexto y en proporcionar respuestas lógicas mediante razonamiento textual. Sin embargo, a menudo tienen dificultades con tareas computacionales que se resolverían mejor utilizando código, como comparar números decimales o resolver problemas de optimización.

Para abordar esta limitación, investigadores del MIT han desarrollado CodeSteer, un asistente inteligente que actúa como entrenador para los grandes modelos de lenguaje, guiándolos para alternar entre la generación de texto y de código hasta que respondan correctamente a una consulta.

"Nos inspiramos en los humanos. En los deportes, un entrenador puede que no sea mejor que la estrella del equipo, pero aún así puede dar sugerencias útiles para guiar al atleta. Este método de dirección también funciona para los LLM", explica Yongchao Chen, estudiante de posgrado en Harvard y el MIT que participó en el proyecto.

CodeSteer, que en sí mismo es un LLM más pequeño ajustado a partir del modelo Llama-3-8B, funciona revisando una consulta y determinando si es más adecuado resolver el problema con texto o con código. A continuación, genera indicaciones para el LLM más grande, guiándolo para que utilice el método apropiado. Si la respuesta no es correcta, CodeSteer sigue sugiriendo al LLM que pruebe diferentes enfoques hasta llegar a la solución correcta.

Los investigadores comprobaron que complementar GPT-4o con CodeSteer aumentó su precisión en tareas simbólicas en más de un 30%, elevando su puntuación media de rendimiento de 53,3 a 86,4 en 37 tareas. Esta mejora le permitió superar incluso a modelos más avanzados como o1 de OpenAI (82,7) y DeepSeek R1 (76,8). De forma notable, CodeSteer también demostró una gran capacidad de generalización, proporcionando una mejora media del 41,8% en el rendimiento cuando se aplicó a otros modelos como Claude, Mistral y GPT-3.5.

Para desarrollar y probar CodeSteer, los investigadores crearon SymBench, un conjunto de referencia integral que comprende 37 tareas simbólicas con complejidad ajustable. Estas tareas abarcan matemáticas, razonamiento espacial, lógica, razonamiento de orden y problemas de optimización.

Este avance podría mejorar significativamente la capacidad de resolución de problemas de la IA en tareas complejas que son difíciles de resolver solo mediante razonamiento textual, como la generación de rutas para robots en entornos inciertos o la planificación de envíos en cadenas de suministro internacionales.

"Al dotar a un LLM de la capacidad de utilizar el código de forma inteligente, podemos tomar un modelo que ya es muy potente y mejorar aún más su rendimiento", señala Chen. Los investigadores están trabajando ahora en optimizar CodeSteer para acelerar su proceso iterativo de sugerencias y explorando cómo ajustar un modelo unificado que pueda alternar entre el razonamiento textual y la generación de código sin depender de un asistente separado.

El entrenador de IA del MIT mejora la capacidad de resolución de problemas de los modelos de lenguaje

Latest News

OpenAI unifica herramientas de IA con ChatGPT Agent para tareas autónomas

OpenAI transformará ChatGPT en un centro de compras con el pago integrado de Shopify

La automatización con IA impulsa el crecimiento de Tech Mahindra a pesar de los desafíos en TI

xAI lanza compañeros de IA sexualizados en medio de un acuerdo con el Pentágono

La IA de Google ahora realiza llamadas telefónicas por ti

Thinking Machines Lab de Murati consigue 2.000 millones de dólares para la revolución de la IA

S&P Global presenta metadatos preparados para IA para transformar el análisis financiero

La Reserva Federal adopta la IA para la investigación mientras estudia su impacto económico

AWS presenta un sistema de refrigeración personalizado para chips de IA de nueva generación

MIT identifica los obstáculos para la ingeniería de software impulsada por IA

El entrenador de IA del MIT mejora la capacidad de resolución de problemas de los modelos de lenguaje

Related Articles

OpenAI unifica herramientas de IA con ChatGPT Agent para tareas autónomas

OpenAI transformará ChatGPT en un centro de compras con el pago integrado de Shopify

La automatización con IA impulsa el crecimiento de Tech Mahindra a pesar de los desafíos en TI

xAI lanza compañeros de IA sexualizados en medio de un acuerdo con el Pentágono

La Reserva Federal adopta la IA para la investigación mientras estudia su impacto económico

Latest News

OpenAI unifica herramientas de IA con ChatGPT Agent para tareas autónomas

OpenAI transformará ChatGPT en un centro de compras con el pago integrado de Shopify

La automatización con IA impulsa el crecimiento de Tech Mahindra a pesar de los desafíos en TI

xAI lanza compañeros de IA sexualizados en medio de un acuerdo con el Pentágono

La IA de Google ahora realiza llamadas telefónicas por ti

Thinking Machines Lab de Murati consigue 2.000 millones de dólares para la revolución de la IA

S&P Global presenta metadatos preparados para IA para transformar el análisis financiero

La Reserva Federal adopta la IA para la investigación mientras estudia su impacto económico

AWS presenta un sistema de refrigeración personalizado para chips de IA de nueva generación

MIT identifica los obstáculos para la ingeniería de software impulsada por IA