menu
close

Il coach AI del MIT potenzia le capacità di problem-solving dei modelli linguistici

I ricercatori del MIT hanno sviluppato CodeSteer, un assistente intelligente che guida i grandi modelli linguistici a passare dalla generazione di testo a quella di codice fino a rispondere correttamente a quesiti complessi. Il sistema ha aumentato l'accuratezza degli LLM in compiti simbolici come problemi matematici e ragionamento spaziale di oltre il 30%, permettendo a modelli meno sofisticati di superare quelli più avanzati. Questa innovazione potrebbe migliorare significativamente le capacità di problem-solving dell'IA in compiti complessi come la robotica, la gestione della supply chain e altri ambiti che richiedono ragionamento computazionale preciso.
Il coach AI del MIT potenzia le capacità di problem-solving dei modelli linguistici

I grandi modelli linguistici (LLM) eccellono nella comprensione del contesto e nel fornire risposte logiche tramite il ragionamento testuale. Tuttavia, spesso incontrano difficoltà nei compiti computazionali che sarebbero meglio risolti tramite il codice, come il confronto tra numeri decimali o la risoluzione di problemi di ottimizzazione.

Per affrontare questa limitazione, i ricercatori del MIT hanno sviluppato CodeSteer, un assistente intelligente che funge da coach per i grandi modelli linguistici, guidandoli a passare dalla generazione di testo a quella di codice fino a rispondere correttamente a una domanda.

"Ci siamo ispirati agli esseri umani. Nello sport, un allenatore può non essere più bravo della stella della squadra, ma può comunque fornire suggerimenti utili per guidare l'atleta. Questo metodo di guida funziona anche per gli LLM", spiega Yongchao Chen, dottorando presso Harvard e MIT che ha lavorato al progetto.

CodeSteer, a sua volta un LLM più piccolo ottimizzato sul modello Llama-3-8B, analizza una domanda e determina se sia più opportuno risolverla con testo o con codice. Successivamente, genera prompt per il LLM più grande, guidandolo verso il metodo più adatto. Se la risposta non è corretta, CodeSteer continua a suggerire al modello di provare approcci diversi fino a trovare la soluzione giusta.

I ricercatori hanno scoperto che l'integrazione di GPT-4o con CodeSteer ha aumentato l'accuratezza nei compiti simbolici di oltre il 30%, facendo salire la media delle prestazioni dal 53,3 all'86,4 su 37 task. Questo miglioramento ha permesso a GPT-4o di superare anche modelli più avanzati come OpenAI o1 (82,7) e DeepSeek R1 (76,8). Notevolmente, CodeSteer ha dimostrato anche una forte generalizzabilità, offrendo un incremento medio delle prestazioni del 41,8% quando applicato ad altri modelli come Claude, Mistral e GPT-3.5.

Per sviluppare e testare CodeSteer, i ricercatori hanno creato SymBench, un benchmark completo composto da 37 compiti simbolici con complessità variabile. Questi task spaziano dalla matematica al ragionamento spaziale, dalla logica al ragionamento sull'ordine e ai problemi di ottimizzazione.

Questa innovazione potrebbe migliorare notevolmente le capacità di problem-solving dell'IA per compiti complessi difficili da risolvere con il solo ragionamento testuale, come la generazione di percorsi per robot in ambienti incerti o la pianificazione delle spedizioni nelle catene di approvvigionamento internazionali.

"Arricchendo un LLM con la capacità di utilizzare il codice in modo intelligente, possiamo prendere un modello già molto potente e migliorarne ulteriormente le prestazioni", osserva Chen. I ricercatori stanno ora lavorando per rendere CodeSteer più snello e accelerare il processo iterativo di prompting, oltre a esplorare la possibilità di ottimizzare un modello unificato in grado di passare dal ragionamento testuale alla generazione di codice senza dover ricorrere a un assistente separato.

Source: Techxplore

Latest News