MIT:n tekoälyvalmentaja parantaa kielimallien ongelmanratkaisukykyä

MIT:n tutkijat ovat kehittäneet CodeSteer-nimisen älykkään avustajan, joka ohjaa suuria kielimalleja vuorottelemaan tekstin ja koodin tuottamisen välillä, kunnes monimutkaisiin kysymyksiin löytyy oikea vastaus. Järjestelmä lisäsi LLM-mallien tarkkuutta symbolisissa tehtävissä, kuten matemaattisissa ongelmissa ja avaruudellisessa päättelyssä, yli 30 %, mahdollistaen vähemmän kehittyneiden mallien suoriutumisen paremmin kuin edistyneemmät mallit. Tämä läpimurto voi merkittävästi parantaa tekoälyn ongelmanratkaisukykyä monimutkaisissa tehtävissä robotiikassa, toimitusketjujen hallinnassa ja muilla tarkkaa laskennallista päättelyä vaativilla aloilla.

Suuret kielimallit (LLM:t) ovat erinomaisia kontekstin ymmärtämisessä ja loogisten vastausten tuottamisessa tekstuaalisen päättelyn avulla. Ne kuitenkin usein kompastuvat laskennallisiin tehtäviin, jotka olisi tehokkaampaa ratkaista koodin avulla, kuten desimaalilukujen vertailu tai optimointiongelmien ratkaiseminen.

Tämän rajoituksen ratkaisemiseksi MIT:n tutkijat ovat kehittäneet CodeSteer-nimisen älykkään avustajan, joka toimii valmentajana suurille kielimalleille ohjaten niitä vuorottelemaan tekstin ja koodin tuottamisen välillä, kunnes kysymykseen löytyy oikea vastaus.

"Ihmisten toiminta inspiroi meitä. Urheilussa valmentaja ei välttämättä ole joukkueen tähtipelaajaa parempi, mutta hän voi silti antaa hyödyllisiä neuvoja ohjatakseen pelaajaa. Tämä ohjausmenetelmä toimii myös kielimalleille", selittää Yongchao Chen, Harvardin ja MIT:n jatko-opiskelija, joka työskenteli projektissa.

CodeSteer on itsessään pienempi kielimalli, joka on hienosäädetty Llama-3-8B-mallin pohjalta. Se tarkastelee kysymystä ja arvioi, olisiko tekstin vai koodin käyttö sopivampaa ongelman ratkaisemiseksi. Tämän jälkeen se luo kehotteita suuremmalle kielimallille ohjaten sitä käyttämään oikeaa lähestymistapaa. Jos vastaus ei ole oikea, CodeSteer jatkaa mallin ohjaamista kokeilemaan eri menetelmiä, kunnes oikea ratkaisu löytyy.

Tutkijat havaitsivat, että GPT-4o-mallin täydentäminen CodeSteerilla paransi sen tarkkuutta symbolisissa tehtävissä yli 30 %, nostaen keskimääräisen suorituspisteen 53,3:sta 86,4:ään 37 tehtävän joukossa. Tämä parannus mahdollisti sen, että malli suoriutui paremmin kuin kehittyneemmät mallit, kuten OpenAI:n o1 (82,7) ja DeepSeek R1 (76,8). Huomionarvoista on myös, että CodeSteer osoitti vahvaa yleistettävyyttä tarjoten keskimäärin 41,8 %:n suorituskyvyn parannuksen myös muille malleille, kuten Claude, Mistral ja GPT-3.5.

CodeSteerin kehittämistä ja testaamista varten tutkijat loivat SymBenchin, kattavan vertailuaineiston, joka sisältää 37 symbolista tehtävää säädettävällä vaikeustasolla. Tehtävät kattavat matematiikan, avaruudellisen päättelyn, logiikan, järjestyspäättelyn ja optimointiongelmat.

Tämä läpimurto voi merkittävästi parantaa tekoälyn ongelmanratkaisukykyä monimutkaisissa tehtävissä, joita on vaikea ratkaista pelkällä tekstuaalisella päättelyllä, kuten reittien suunnittelu roboteille epävarmoissa ympäristöissä tai toimitusten aikataulutus kansainvälisissä toimitusketjuissa.

"Kun täydennämme kielimallia kyvyllä hyödyntää älykkäästi koodia, voimme ottaa jo valmiiksi vahvan mallin ja parantaa sen suorituskykyä entisestään", Chen toteaa. Tutkijat työskentelevät nyt CodeSteerin kehittämiseksi entistä nopeammaksi sekä tutkivat mahdollisuutta hienosäätää yhtenäinen malli, joka osaa vaihdella tekstuaalisen päättelyn ja koodin tuottamisen välillä ilman erillistä avustajaa.

MIT:n tekoälyvalmentaja parantaa kielimallien ongelmanratkaisukykyä

Latest News

OpenAI yhdistää tekoälytyökalut ChatGPT Agentin autonomisiin tehtäviin

OpenAI muuttaa ChatGPT:n ostospaikaksi Shopify-maksun avulla

AI-automaation vauhdittama kasvu siivittää Tech Mahindraa IT-alan vastatuulesta huolimatta

xAI julkaisee seksualisoituja tekoälykumppaneita samaan aikaan Pentagon-sopimuksen kanssa

Googlen tekoäly soittaa nyt puolestasi – sinun ei tarvitse tarttua puhelimeen

Muratin Thinking Machines Lab keräsi 2 miljardia dollaria tekoälyvallankumoukseen

S&P Global julkaisi tekoälyvalmiin metadatan mullistaakseen finanssianalytiikan

Fed ottaa tekoälyn käyttöön tutkimuksessa ja selvittää sen taloudellisia vaikutuksia

AWS esittelee räätälöidyn jäähdytysjärjestelmän seuraavan sukupolven tekoälypiireille

MIT kartoittaa tekoälypohjaisen ohjelmistokehityksen esteitä

MIT:n tekoälyvalmentaja parantaa kielimallien ongelmanratkaisukykyä

Related Articles

OpenAI yhdistää tekoälytyökalut ChatGPT Agentin autonomisiin tehtäviin

OpenAI muuttaa ChatGPT:n ostospaikaksi Shopify-maksun avulla

AI-automaation vauhdittama kasvu siivittää Tech Mahindraa IT-alan vastatuulesta huolimatta

xAI julkaisee seksualisoituja tekoälykumppaneita samaan aikaan Pentagon-sopimuksen kanssa

Fed ottaa tekoälyn käyttöön tutkimuksessa ja selvittää sen taloudellisia vaikutuksia

Latest News

OpenAI yhdistää tekoälytyökalut ChatGPT Agentin autonomisiin tehtäviin

OpenAI muuttaa ChatGPT:n ostospaikaksi Shopify-maksun avulla

AI-automaation vauhdittama kasvu siivittää Tech Mahindraa IT-alan vastatuulesta huolimatta

xAI julkaisee seksualisoituja tekoälykumppaneita samaan aikaan Pentagon-sopimuksen kanssa

Googlen tekoäly soittaa nyt puolestasi – sinun ei tarvitse tarttua puhelimeen

Muratin Thinking Machines Lab keräsi 2 miljardia dollaria tekoälyvallankumoukseen

S&P Global julkaisi tekoälyvalmiin metadatan mullistaakseen finanssianalytiikan

Fed ottaa tekoälyn käyttöön tutkimuksessa ja selvittää sen taloudellisia vaikutuksia

AWS esittelee räätälöidyn jäähdytysjärjestelmän seuraavan sukupolven tekoälypiireille

MIT kartoittaa tekoälypohjaisen ohjelmistokehityksen esteitä