Il coach AI del MIT potenzia le capacità di problem-solving dei modelli linguistici

I ricercatori del MIT hanno sviluppato CodeSteer, un assistente intelligente che guida i grandi modelli linguistici a passare dalla generazione di testo a quella di codice fino a rispondere correttamente a quesiti complessi. Il sistema ha aumentato l'accuratezza degli LLM in compiti simbolici come problemi matematici e ragionamento spaziale di oltre il 30%, permettendo a modelli meno sofisticati di superare quelli più avanzati. Questa innovazione potrebbe migliorare significativamente le capacità di problem-solving dell'IA in compiti complessi come la robotica, la gestione della supply chain e altri ambiti che richiedono ragionamento computazionale preciso.

I grandi modelli linguistici (LLM) eccellono nella comprensione del contesto e nel fornire risposte logiche tramite il ragionamento testuale. Tuttavia, spesso incontrano difficoltà nei compiti computazionali che sarebbero meglio risolti tramite il codice, come il confronto tra numeri decimali o la risoluzione di problemi di ottimizzazione.

Per affrontare questa limitazione, i ricercatori del MIT hanno sviluppato CodeSteer, un assistente intelligente che funge da coach per i grandi modelli linguistici, guidandoli a passare dalla generazione di testo a quella di codice fino a rispondere correttamente a una domanda.

"Ci siamo ispirati agli esseri umani. Nello sport, un allenatore può non essere più bravo della stella della squadra, ma può comunque fornire suggerimenti utili per guidare l'atleta. Questo metodo di guida funziona anche per gli LLM", spiega Yongchao Chen, dottorando presso Harvard e MIT che ha lavorato al progetto.

CodeSteer, a sua volta un LLM più piccolo ottimizzato sul modello Llama-3-8B, analizza una domanda e determina se sia più opportuno risolverla con testo o con codice. Successivamente, genera prompt per il LLM più grande, guidandolo verso il metodo più adatto. Se la risposta non è corretta, CodeSteer continua a suggerire al modello di provare approcci diversi fino a trovare la soluzione giusta.

I ricercatori hanno scoperto che l'integrazione di GPT-4o con CodeSteer ha aumentato l'accuratezza nei compiti simbolici di oltre il 30%, facendo salire la media delle prestazioni dal 53,3 all'86,4 su 37 task. Questo miglioramento ha permesso a GPT-4o di superare anche modelli più avanzati come OpenAI o1 (82,7) e DeepSeek R1 (76,8). Notevolmente, CodeSteer ha dimostrato anche una forte generalizzabilità, offrendo un incremento medio delle prestazioni del 41,8% quando applicato ad altri modelli come Claude, Mistral e GPT-3.5.

Per sviluppare e testare CodeSteer, i ricercatori hanno creato SymBench, un benchmark completo composto da 37 compiti simbolici con complessità variabile. Questi task spaziano dalla matematica al ragionamento spaziale, dalla logica al ragionamento sull'ordine e ai problemi di ottimizzazione.

Questa innovazione potrebbe migliorare notevolmente le capacità di problem-solving dell'IA per compiti complessi difficili da risolvere con il solo ragionamento testuale, come la generazione di percorsi per robot in ambienti incerti o la pianificazione delle spedizioni nelle catene di approvvigionamento internazionali.

"Arricchendo un LLM con la capacità di utilizzare il codice in modo intelligente, possiamo prendere un modello già molto potente e migliorarne ulteriormente le prestazioni", osserva Chen. I ricercatori stanno ora lavorando per rendere CodeSteer più snello e accelerare il processo iterativo di prompting, oltre a esplorare la possibilità di ottimizzare un modello unificato in grado di passare dal ragionamento testuale alla generazione di codice senza dover ricorrere a un assistente separato.

Il coach AI del MIT potenzia le capacità di problem-solving dei modelli linguistici

Latest News

OpenAI unifica gli strumenti di IA con ChatGPT Agent per compiti autonomi

OpenAI trasformerà ChatGPT in un hub per lo shopping con il checkout di Shopify

L’automazione AI guida la crescita di Tech Mahindra nonostante le difficoltà del settore IT

xAI lancia compagni AI sessualizzati mentre firma un accordo con il Pentagono

L’IA di Google ora effettua chiamate telefoniche al posto tuo

Thinking Machines Lab di Murati ottiene 2 miliardi di dollari per la rivoluzione dell’IA

S&P Global presenta i Metadati Pronti per l’IA per trasformare l’analisi finanziaria

La Fed Abbraccia l’IA per la Ricerca Mentre Studia il Suo Impatto Economico

AWS Svela un Sistema di Raffreddamento Personalizzato per i Chip AI di Nuova Generazione

MIT Mappa gli Ostacoli all’Ingegneria del Software Guidata dall’IA

Il coach AI del MIT potenzia le capacità di problem-solving dei modelli linguistici

Related Articles

OpenAI unifica gli strumenti di IA con ChatGPT Agent per compiti autonomi

OpenAI trasformerà ChatGPT in un hub per lo shopping con il checkout di Shopify

L’automazione AI guida la crescita di Tech Mahindra nonostante le difficoltà del settore IT

xAI lancia compagni AI sessualizzati mentre firma un accordo con il Pentagono

La Fed Abbraccia l’IA per la Ricerca Mentre Studia il Suo Impatto Economico

Latest News

OpenAI unifica gli strumenti di IA con ChatGPT Agent per compiti autonomi

OpenAI trasformerà ChatGPT in un hub per lo shopping con il checkout di Shopify

L’automazione AI guida la crescita di Tech Mahindra nonostante le difficoltà del settore IT

xAI lancia compagni AI sessualizzati mentre firma un accordo con il Pentagono

L’IA di Google ora effettua chiamate telefoniche al posto tuo

Thinking Machines Lab di Murati ottiene 2 miliardi di dollari per la rivoluzione dell’IA

S&P Global presenta i Metadati Pronti per l’IA per trasformare l’analisi finanziaria

La Fed Abbraccia l’IA per la Ricerca Mentre Studia il Suo Impatto Economico

AWS Svela un Sistema di Raffreddamento Personalizzato per i Chip AI di Nuova Generazione

MIT Mappa gli Ostacoli all’Ingegneria del Software Guidata dall’IA