Antrenorul AI de la MIT îmbunătățește abilitățile de rezolvare a problemelor ale modelelor lingvistice

Cercetătorii de la MIT au dezvoltat CodeSteer, un asistent inteligent care ghidează modelele lingvistice mari să alterneze între generarea de text și de cod până când răspund corect la întrebări complexe. Sistemul a crescut acuratețea LLM-urilor pe sarcini simbolice precum probleme de matematică și raționament spațial cu peste 30%, permițând modelelor mai puțin sofisticate să depășească unele mai avansate. Această descoperire ar putea îmbunătăți semnificativ capacitățile de rezolvare a problemelor AI pentru sarcini complexe din robotică, managementul lanțului de aprovizionare și alte domenii ce necesită raționament computațional precis.

Modelele lingvistice mari (LLM) excelează la înțelegerea contextului și la furnizarea de răspunsuri logice prin raționament textual. Totuși, acestea întâmpină adesea dificultăți în sarcini computaționale care ar fi mai bine rezolvate folosind cod, precum compararea numerelor zecimale sau rezolvarea problemelor de optimizare.

Pentru a aborda această limitare, cercetătorii de la MIT au dezvoltat CodeSteer, un asistent inteligent care acționează ca un antrenor pentru modelele lingvistice mari, ghidându-le să alterneze între generarea de text și de cod până când răspund corect la o întrebare.

„Ne-am inspirat de la oameni. În sport, un antrenor poate să nu fie mai bun decât vedeta echipei, dar tot poate oferi sugestii utile pentru a ghida sportivul. Această metodă de ghidare funcționează și pentru LLM-uri”, explică Yongchao Chen, doctorand la Harvard și MIT, care a lucrat la proiect.

CodeSteer, el însuși un LLM mai mic, ajustat pe modelul Llama-3-8B, funcționează prin revizuirea unei întrebări și determinarea dacă textul sau codul ar fi mai potrivit pentru rezolvarea problemei. Ulterior, generează prompturi pentru LLM-ul mai mare, ghidându-l să folosească metoda adecvată. Dacă răspunsul nu este corect, CodeSteer continuă să trimită prompturi LLM-ului pentru a încerca abordări diferite până la găsirea soluției corecte.

Cercetătorii au descoperit că suplimentarea GPT-4o cu CodeSteer i-a crescut acuratețea pe sarcini simbolice cu peste 30%, ridicând scorul mediu de performanță de la 53,3 la 86,4 pe 37 de sarcini. Această îmbunătățire i-a permis să depășească chiar și modele mai avansate precum OpenAI o1 (82,7) și DeepSeek R1 (76,8). Remarcabil este că CodeSteer a demonstrat și o generalizare puternică, oferind un plus mediu de performanță de 41,8% atunci când a fost aplicat altor modele precum Claude, Mistral și GPT-3.5.

Pentru a dezvolta și testa CodeSteer, cercetătorii au creat SymBench, un set de referință cuprinzător ce cuprinde 37 de sarcini simbolice cu complexitate ajustabilă. Aceste sarcini acoperă matematică, raționament spațial, logică, raționament de ordine și probleme de optimizare.

Această descoperire ar putea îmbunătăți semnificativ capacitățile AI de rezolvare a problemelor pentru sarcini complexe care sunt dificil de abordat doar prin raționament textual, precum generarea de trasee pentru roboți în medii incerte sau programarea transporturilor în lanțuri de aprovizionare internaționale.

„Prin suplimentarea unui LLM cu abilitatea de a folosi inteligent codul, putem lua un model deja foarte performant și să-i îmbunătățim și mai mult rezultatele”, subliniază Chen. Cercetătorii lucrează acum la optimizarea CodeSteer pentru a accelera procesul iterativ de promptare și explorează modalități de a ajusta un model unificat care să poată comuta între raționament textual și generare de cod fără a depinde de un asistent separat.

Antrenorul AI de la MIT îmbunătățește abilitățile de rezolvare a problemelor ale modelelor lingvistice

Latest News

OpenAI unifică instrumentele AI cu ChatGPT Agent pentru sarcini autonome

OpenAI va transforma ChatGPT într-un hub de cumpărături cu checkout Shopify

Automatizarea bazată pe AI impulsionează creșterea Tech Mahindra, în ciuda provocărilor din IT

xAI lansează însoțitori AI sexualizați în contextul unui contract cu Pentagonul

Inteligența artificială de la Google efectuează acum apeluri telefonice în locul tău

Thinking Machines Lab a lui Murati obține 2 miliarde de dolari pentru revoluția AI

S&P Global lansează metadate pregătite pentru AI pentru a transforma analiza financiară

Fed adoptă inteligența artificială pentru cercetare, analizând în același timp impactul său economic

AWS Dezvăluie un Sistem de Răcire Personalizat pentru Cipurile AI de Nouă Generație

MIT cartografiază obstacolele din calea ingineriei software conduse de inteligența artificială

Antrenorul AI de la MIT îmbunătățește abilitățile de rezolvare a problemelor ale modelelor lingvistice

Related Articles

OpenAI unifică instrumentele AI cu ChatGPT Agent pentru sarcini autonome

OpenAI va transforma ChatGPT într-un hub de cumpărături cu checkout Shopify

Automatizarea bazată pe AI impulsionează creșterea Tech Mahindra, în ciuda provocărilor din IT

xAI lansează însoțitori AI sexualizați în contextul unui contract cu Pentagonul

Fed adoptă inteligența artificială pentru cercetare, analizând în același timp impactul său economic

Latest News

OpenAI unifică instrumentele AI cu ChatGPT Agent pentru sarcini autonome

OpenAI va transforma ChatGPT într-un hub de cumpărături cu checkout Shopify

Automatizarea bazată pe AI impulsionează creșterea Tech Mahindra, în ciuda provocărilor din IT

xAI lansează însoțitori AI sexualizați în contextul unui contract cu Pentagonul

Inteligența artificială de la Google efectuează acum apeluri telefonice în locul tău

Thinking Machines Lab a lui Murati obține 2 miliarde de dolari pentru revoluția AI

S&P Global lansează metadate pregătite pentru AI pentru a transforma analiza financiară

Fed adoptă inteligența artificială pentru cercetare, analizând în același timp impactul său economic

AWS Dezvăluie un Sistem de Răcire Personalizat pentru Cipurile AI de Nouă Generație

MIT cartografiază obstacolele din calea ingineriei software conduse de inteligența artificială