Coach de IA do MIT Potencia Capacidades de Resolução de Problemas dos Modelos de Linguagem

Investigadores do MIT desenvolveram o CodeSteer, um assistente inteligente que orienta grandes modelos de linguagem a alternar entre geração de texto e de código até responderem corretamente a questões complexas. O sistema aumentou a precisão dos LLM em tarefas simbólicas, como problemas matemáticos e raciocínio espacial, em mais de 30%, permitindo que modelos menos sofisticados superassem outros mais avançados. Este avanço pode melhorar significativamente as capacidades de resolução de problemas da IA em tarefas complexas na robótica, gestão de cadeias de abastecimento e outras áreas que exigem raciocínio computacional preciso.

Os grandes modelos de linguagem (LLM) destacam-se na compreensão de contexto e na apresentação de respostas lógicas através de raciocínio textual. No entanto, têm frequentemente dificuldades em tarefas computacionais que seriam mais eficazmente resolvidas com código, como comparar números decimais ou resolver problemas de otimização.

Para ultrapassar esta limitação, investigadores do MIT desenvolveram o CodeSteer, um assistente inteligente que atua como treinador dos grandes modelos de linguagem, orientando-os a alternar entre geração de texto e de código até responderem corretamente a uma questão.

"Inspirámo-nos nos humanos. No desporto, um treinador pode não ser melhor do que a estrela da equipa, mas ainda assim pode dar sugestões úteis para orientar o atleta. Este método de orientação também funciona para os LLM", explica Yongchao Chen, estudante de doutoramento em Harvard e no MIT que participou no projeto.

O CodeSteer, ele próprio um LLM mais pequeno ajustado a partir do modelo Llama-3-8B, funciona analisando uma questão e determinando se a melhor abordagem é textual ou baseada em código. Em seguida, gera instruções para o LLM maior, guiando-o a utilizar o método mais adequado. Se a resposta não estiver correta, o CodeSteer continua a sugerir diferentes abordagens até se chegar à solução certa.

Os investigadores verificaram que, ao complementar o GPT-4o com o CodeSteer, a precisão em tarefas simbólicas aumentou mais de 30%, elevando a pontuação média de desempenho de 53,3 para 86,4 em 37 tarefas. Esta melhoria permitiu-lhe superar até modelos mais avançados, como o o1 da OpenAI (82,7) e o DeepSeek R1 (76,8). Notavelmente, o CodeSteer também demonstrou grande capacidade de generalização, proporcionando um aumento médio de desempenho de 41,8% quando aplicado a outros modelos como o Claude, Mistral e GPT-3.5.

Para desenvolver e testar o CodeSteer, os investigadores criaram o SymBench, um benchmark abrangente composto por 37 tarefas simbólicas com complexidade ajustável. Estas tarefas abrangem matemática, raciocínio espacial, lógica, ordenação e problemas de otimização.

Este avanço pode melhorar significativamente as capacidades de resolução de problemas da IA em tarefas complexas que são difíceis de resolver apenas com raciocínio textual, como gerar percursos para robôs em ambientes incertos ou agendar envios em cadeias de abastecimento internacionais.

"Ao dotar um LLM da capacidade de utilizar código de forma inteligente, conseguimos pegar num modelo já muito forte e melhorar ainda mais o seu desempenho", sublinha Chen. Os investigadores estão agora a trabalhar para tornar o CodeSteer mais eficiente, acelerando o seu processo iterativo de sugestões, e a explorar formas de ajustar um modelo unificado capaz de alternar entre raciocínio textual e geração de código sem depender de um assistente separado.

Coach de IA do MIT Potencia Capacidades de Resolução de Problemas dos Modelos de Linguagem

Latest News

OpenAI Unifica Ferramentas de IA com ChatGPT Agent para Tarefas Autónomas

OpenAI vai transformar o ChatGPT num centro de compras com checkout da Shopify

Automação por IA impulsiona crescimento da Tech Mahindra apesar dos desafios no setor TI

xAI Lança Companheiros de IA Sexualizados em Plena Celebração de Contrato com o Pentágono

A IA da Google Agora Faz Chamadas Telefónicas Por Si

Thinking Machines Lab de Murati garante 2 mil milhões de dólares para revolução em IA

S&P Global Lança Metadados Prontos para IA para Transformar a Análise Financeira

Fed Adopta IA para Investigação Enquanto Analisa o Seu Impacto Económico

AWS Revela Sistema de Arrefecimento Personalizado para Chips de IA de Próxima Geração

MIT Identifica Obstáculos à Engenharia de Software Impulsionada por IA

Coach de IA do MIT Potencia Capacidades de Resolução de Problemas dos Modelos de Linguagem

Related Articles

OpenAI Unifica Ferramentas de IA com ChatGPT Agent para Tarefas Autónomas

OpenAI vai transformar o ChatGPT num centro de compras com checkout da Shopify

Automação por IA impulsiona crescimento da Tech Mahindra apesar dos desafios no setor TI

xAI Lança Companheiros de IA Sexualizados em Plena Celebração de Contrato com o Pentágono

Fed Adopta IA para Investigação Enquanto Analisa o Seu Impacto Económico

Latest News

OpenAI Unifica Ferramentas de IA com ChatGPT Agent para Tarefas Autónomas

OpenAI vai transformar o ChatGPT num centro de compras com checkout da Shopify

Automação por IA impulsiona crescimento da Tech Mahindra apesar dos desafios no setor TI

xAI Lança Companheiros de IA Sexualizados em Plena Celebração de Contrato com o Pentágono

A IA da Google Agora Faz Chamadas Telefónicas Por Si

Thinking Machines Lab de Murati garante 2 mil milhões de dólares para revolução em IA

S&P Global Lança Metadados Prontos para IA para Transformar a Análise Financeira

Fed Adopta IA para Investigação Enquanto Analisa o Seu Impacto Económico

AWS Revela Sistema de Arrefecimento Personalizado para Chips de IA de Próxima Geração

MIT Identifica Obstáculos à Engenharia de Software Impulsionada por IA