menu
close

AI-coach van MIT verbetert probleemoplossend vermogen van taalmodellen

Onderzoekers van MIT hebben CodeSteer ontwikkeld, een intelligente assistent die grote taalmodellen begeleidt bij het afwisselen tussen tekst- en codegeneratie totdat complexe vragen correct worden beantwoord. Het systeem verhoogde de nauwkeurigheid van LLM's bij symbolische taken zoals wiskundeproblemen en ruimtelijk redeneren met meer dan 30%, waardoor minder geavanceerde modellen beter presteerden dan geavanceerdere varianten. Deze doorbraak kan het probleemoplossend vermogen van AI aanzienlijk verbeteren voor complexe taken in onder meer robotica en supply chain management, waar nauwkeurige computationele redenering vereist is.
AI-coach van MIT verbetert probleemoplossend vermogen van taalmodellen

Grote taalmodellen (LLM's) blinken uit in het begrijpen van context en het geven van logische antwoorden via tekstueel redeneren. Toch hebben ze vaak moeite met computationele taken die beter met code kunnen worden opgelost, zoals het vergelijken van decimale getallen of het oplossen van optimalisatieproblemen.

Om deze beperking aan te pakken, hebben onderzoekers van MIT CodeSteer ontwikkeld, een slimme assistent die als coach fungeert voor grotere taalmodellen en hen begeleidt bij het afwisselen tussen tekst- en codegeneratie totdat een vraag correct is beantwoord.

"We lieten ons inspireren door mensen. In de sport is een trainer misschien niet beter dan de sterspeler van het team, maar de trainer kan wel nuttige suggesties geven om de atleet te sturen. Deze sturingsmethode werkt ook voor LLM's," legt Yongchao Chen uit, promovendus aan Harvard en MIT en betrokken bij het project.

CodeSteer, zelf een kleiner LLM dat is verfijnd op het Llama-3-8B-model, werkt door een vraag te beoordelen en te bepalen of tekst of code het meest geschikt is om het probleem op te lossen. Vervolgens genereert het prompts voor het grotere LLM en stuurt het aan om de juiste methode te gebruiken. Als het antwoord niet correct is, blijft CodeSteer het LLM aansturen om verschillende benaderingen te proberen totdat de juiste oplossing is gevonden.

Uit het onderzoek bleek dat het toevoegen van CodeSteer aan GPT-4o de nauwkeurigheid op symbolische taken met meer dan 30% verhoogde, waardoor de gemiddelde score steeg van 53,3 naar 86,4 over 37 taken. Hierdoor presteerde het model zelfs beter dan geavanceerdere modellen zoals OpenAI's o1 (82,7) en DeepSeek R1 (76,8). Opmerkelijk genoeg toonde CodeSteer ook sterke generaliseerbaarheid, met een gemiddelde prestatieverbetering van 41,8% bij toepassing op andere modellen zoals Claude, Mistral en GPT-3.5.

Voor de ontwikkeling en het testen van CodeSteer creëerden de onderzoekers SymBench, een uitgebreide benchmark bestaande uit 37 symbolische taken met instelbare complexiteit. Deze taken omvatten wiskunde, ruimtelijk redeneren, logica, volgorde-redenering en optimalisatieproblemen.

Deze doorbraak kan het probleemoplossend vermogen van AI aanzienlijk verbeteren voor complexe taken die moeilijk alleen met tekstueel redeneren op te lossen zijn, zoals het genereren van routes voor robots in onzekere omgevingen of het plannen van zendingen in internationale supply chains.

"Door een LLM uit te breiden met het vermogen om slim te coderen, kunnen we een model dat al erg sterk is, nóg beter laten presteren," merkt Chen op. De onderzoekers werken nu aan het stroomlijnen van CodeSteer om het iteratieve promptproces te versnellen en verkennen hoe ze een verenigd model kunnen verfijnen dat zelfstandig kan schakelen tussen tekstueel redeneren en codegeneratie, zonder een aparte assistent.

Source: Techxplore

Latest News