menu
close

Coach de IA do MIT impulsiona habilidades de resolução de problemas em modelos de linguagem

Pesquisadores do MIT desenvolveram o CodeSteer, um assistente inteligente que orienta grandes modelos de linguagem a alternar entre geração de texto e código até responder corretamente a consultas complexas. O sistema aumentou a precisão dos LLMs em tarefas simbólicas, como problemas matemáticos e raciocínio espacial, em mais de 30%, permitindo que modelos menos sofisticados superassem outros mais avançados. Essa inovação pode aprimorar significativamente a capacidade de resolução de problemas da IA em tarefas complexas de robótica, gestão de cadeias de suprimentos e outras áreas que exigem raciocínio computacional preciso.
Coach de IA do MIT impulsiona habilidades de resolução de problemas em modelos de linguagem

Grandes modelos de linguagem (LLMs) se destacam em compreender contexto e fornecer respostas lógicas por meio do raciocínio textual. No entanto, frequentemente enfrentam dificuldades em tarefas computacionais que seriam melhor resolvidas com o uso de código, como comparar números decimais ou resolver problemas de otimização.

Para superar essa limitação, pesquisadores do MIT desenvolveram o CodeSteer, um assistente inteligente que atua como um treinador para grandes modelos de linguagem, orientando-os a alternar entre geração de texto e código até que respondam corretamente a uma consulta.

"Nos inspiramos nos humanos. Nos esportes, um treinador pode não ser melhor do que o atleta estrela do time, mas ainda assim pode dar sugestões valiosas para orientar o atleta. Esse método de orientação também funciona para os LLMs", explica Yongchao Chen, estudante de pós-graduação em Harvard e no MIT que trabalhou no projeto.

O CodeSteer, ele próprio um LLM menor ajustado a partir do modelo Llama-3-8B, funciona revisando uma consulta e determinando se texto ou código seria mais adequado para resolver o problema. Em seguida, gera prompts para o LLM maior, guiando-o a usar o método apropriado. Se a resposta não estiver correta, o CodeSteer continua sugerindo ao LLM que tente diferentes abordagens até chegar à solução correta.

Os pesquisadores descobriram que, ao complementar o GPT-4o com o CodeSteer, sua precisão em tarefas simbólicas aumentou mais de 30%, elevando sua pontuação média de desempenho de 53,3 para 86,4 em 37 tarefas. Essa melhoria permitiu que superasse até mesmo modelos mais avançados, como o o1 da OpenAI (82,7) e o DeepSeek R1 (76,8). Notavelmente, o CodeSteer também demonstrou forte capacidade de generalização, proporcionando um aumento médio de desempenho de 41,8% quando aplicado a outros modelos como Claude, Mistral e GPT-3.5.

Para desenvolver e testar o CodeSteer, os pesquisadores criaram o SymBench, um benchmark abrangente composto por 37 tarefas simbólicas com complexidade ajustável. Essas tarefas abrangem matemática, raciocínio espacial, lógica, raciocínio de ordem e problemas de otimização.

Essa inovação pode aprimorar significativamente a capacidade de resolução de problemas da IA em tarefas complexas que são difíceis de resolver apenas com raciocínio textual, como gerar trajetórias para robôs em ambientes incertos ou programar remessas em cadeias de suprimentos internacionais.

"Ao complementar um LLM com a capacidade de usar código de forma inteligente, podemos pegar um modelo que já é muito forte e melhorar ainda mais seu desempenho", observa Chen. Os pesquisadores agora trabalham para tornar o CodeSteer mais eficiente, acelerando seu processo iterativo de sugestão de prompts, além de explorar como ajustar um modelo unificado capaz de alternar entre raciocínio textual e geração de código sem depender de um assistente separado.

Source: Techxplore

Latest News