menu
close

MIT's AI-træner øger sprogmodellernes problemløsningsevner

Forskere fra MIT har udviklet CodeSteer, en intelligent assistent, der guider store sprogmodeller til at skifte mellem tekst- og kodegenerering, indtil de korrekt besvarer komplekse forespørgsler. Systemet øgede LLM'ers nøjagtighed på symbolske opgaver som matematikproblemer og rumlig ræsonnement med over 30 %, hvilket gør mindre sofistikerede modeller i stand til at overgå mere avancerede. Dette gennembrud kan markant forbedre AI's evne til at løse komplekse opgaver inden for blandt andet robotteknologi og forsyningskædestyring, hvor præcis beregningsmæssig ræsonnement er påkrævet.
MIT's AI-træner øger sprogmodellernes problemløsningsevner

Store sprogmodeller (LLM'er) er dygtige til at forstå kontekst og give logiske svar gennem tekstbaseret ræsonnement. Men de har ofte svært ved beregningsopgaver, som bedre løses med kode, såsom at sammenligne decimaltal eller løse optimeringsproblemer.

For at imødekomme denne begrænsning har forskere fra MIT udviklet CodeSteer, en smart assistent, der fungerer som træner for større sprogmodeller og guider dem til at skifte mellem tekst- og kodegenerering, indtil de finder det korrekte svar på en forespørgsel.

"Vi blev inspireret af mennesker. I sport er en træner måske ikke bedre end holdets stjernespiller, men træneren kan stadig give nyttige forslag og vejlede atleten. Denne styringsmetode virker også for LLM'er," forklarer Yongchao Chen, ph.d.-studerende ved Harvard og MIT, som har arbejdet på projektet.

CodeSteer, der selv er en mindre LLM finjusteret på Llama-3-8B-modellen, gennemgår en forespørgsel og vurderer, om tekst eller kode er bedst egnet til at løse problemet. Derefter genererer den prompts til den større LLM og guider den til at bruge den rette metode. Hvis svaret ikke er korrekt, fortsætter CodeSteer med at give prompts, så LLM'en prøver forskellige tilgange, indtil den når frem til den rigtige løsning.

Forskerne fandt, at når GPT-4o blev suppleret med CodeSteer, steg dens nøjagtighed på symbolske opgaver med over 30 %, hvilket hævede dens gennemsnitlige præstationsscore fra 53,3 til 86,4 på tværs af 37 opgaver. Denne forbedring gjorde det muligt for modellen at overgå selv mere avancerede modeller som OpenAI's o1 (82,7) og DeepSeek R1 (76,8). Bemærkelsesværdigt viste CodeSteer også stærk generaliserbarhed og gav i gennemsnit en præstationsforbedring på 41,8 %, når den blev anvendt på andre modeller som Claude, Mistral og GPT-3.5.

For at udvikle og teste CodeSteer skabte forskerne SymBench, en omfattende benchmark bestående af 37 symbolske opgaver med justerbar kompleksitet. Disse opgaver spænder over matematik, rumlig ræsonnement, logik, rækkefølgelogik og optimeringsproblemer.

Dette gennembrud kan markant forbedre AI's evne til at løse komplekse opgaver, som er svære at løse med tekstbaseret ræsonnement alene, såsom at generere ruter for robotter i usikre miljøer eller planlægge forsendelser i internationale forsyningskæder.

"Ved at udstyre en LLM med evnen til intelligent at bruge kodning kan vi tage en model, der allerede er meget stærk, og forbedre dens præstation yderligere," bemærker Chen. Forskerne arbejder nu på at strømline CodeSteer for at gøre den iterative promptproces hurtigere og undersøger, hvordan man kan finjustere en samlet model, der kan skifte mellem tekstbaseret ræsonnement og kodegenerering uden at være afhængig af en separat assistent.

Source: Techxplore

Latest News