menu
close

MIT:s AI-tränare förbättrar språkmodellers problemlösningsförmåga

Forskare vid MIT har utvecklat CodeSteer, en intelligent assistent som vägleder stora språkmodeller att växla mellan text- och kodgenerering tills de korrekt besvarar komplexa frågor. Systemet ökade språkmodellernas träffsäkerhet på symboliska uppgifter som matematikproblem och rumslig logik med över 30 %, vilket gör att mindre avancerade modeller kan prestera bättre än mer sofistikerade. Detta genombrott kan avsevärt förbättra AI:s problemlösningsförmåga för komplexa uppgifter inom bland annat robotik och logistik, där exakt beräkningslogik krävs.
MIT:s AI-tränare förbättrar språkmodellers problemlösningsförmåga

Stora språkmodeller (LLM:er) är duktiga på att förstå sammanhang och ge logiska svar genom textbaserad resonemang. Men de har ofta svårt för beräkningsuppgifter som lämpar sig bättre för kod, såsom att jämföra decimaltal eller lösa optimeringsproblem.

För att lösa denna begränsning har forskare vid MIT utvecklat CodeSteer, en smart assistent som fungerar som tränare för större språkmodeller och vägleder dem att växla mellan text- och kodgenerering tills de korrekt besvarar en fråga.

"Vi inspirerades av människor. Inom idrott kanske en tränare inte är bättre än lagets stjärna, men tränaren kan ändå ge värdefulla råd för att vägleda idrottaren. Denna styrningsmetod fungerar även för språkmodeller," förklarar Yongchao Chen, doktorand vid Harvard och MIT som arbetat med projektet.

CodeSteer, som själv är en mindre språkmodell finjusterad på Llama-3-8B, fungerar genom att analysera en fråga och avgöra om text eller kod är mest lämpligt för att lösa problemet. Därefter genererar den instruktioner till den större språkmodellen och vägleder den att använda rätt metod. Om svaret inte är korrekt fortsätter CodeSteer att ge nya uppmaningar tills rätt lösning nås.

Forskarna upptäckte att GPT-4o, förstärkt med CodeSteer, ökade sin träffsäkerhet på symboliska uppgifter med över 30 %, från 53,3 till 86,4 i genomsnitt över 37 olika uppgifter. Denna förbättring gjorde att modellen överträffade mer avancerade modeller som OpenAI:s o1 (82,7) och DeepSeek R1 (76,8). Anmärkningsvärt nog visade CodeSteer också stark generaliserbarhet, med i genomsnitt 41,8 % bättre resultat när den användes på andra modeller som Claude, Mistral och GPT-3.5.

För att utveckla och testa CodeSteer skapade forskarna SymBench, ett omfattande riktmärke med 37 symboliska uppgifter av varierande svårighetsgrad. Dessa omfattar matematik, rumslig logik, logik, ordningsresonemang och optimeringsproblem.

Detta genombrott kan avsevärt förbättra AI:s problemlösningsförmåga för komplexa uppgifter som är svåra att lösa med enbart textbaserad resonemang, till exempel att generera banor för robotar i osäkra miljöer eller planera leveranser i globala leveranskedjor.

"Genom att förstärka en språkmodell med förmågan att smart använda kod kan vi ta en redan stark modell och förbättra dess prestanda ytterligare," säger Chen. Forskarna arbetar nu med att effektivisera CodeSteer för att snabba upp dess iterativa process och undersöker hur man kan finjustera en enhetlig modell som kan växla mellan textresonemang och kodgenerering utan att behöva en separat assistent.

Source: Techxplore

Latest News