Velké jazykové modely (LLM) vynikají v porozumění kontextu a poskytování logických odpovědí prostřednictvím textového uvažování. Často však narážejí na obtíže u výpočetních úloh, které by bylo vhodnější řešit pomocí kódu, například při porovnávání desetinných čísel nebo řešení optimalizačních problémů.
Aby tuto slabinu překonali, vyvinuli výzkumníci z MIT systém CodeSteer – chytrého asistenta, který funguje jako kouč pro větší jazykové modely a vede je k přepínání mezi generováním textu a kódu, dokud správně nezodpoví dotaz.
„Inspirovali jsme se lidmi. Ve sportu nemusí být trenér lepší než hvězdný hráč týmu, ale přesto může dávat užitečné rady, které sportovce nasměrují. Tento způsob vedení funguje i u LLM,“ vysvětluje Yongchao Chen, doktorand na Harvardu a MIT, který se na projektu podílel.
CodeSteer, sám o sobě menší LLM doladěný na modelu Llama-3-8B, pracuje tak, že analyzuje dotaz a určuje, zda je pro řešení problému vhodnější text nebo kód. Poté generuje podněty pro větší LLM a vede jej k použití správné metody. Pokud odpověď není správná, CodeSteer pokračuje v navrhování různých přístupů, dokud nedojde ke správnému řešení.
Výzkumníci zjistili, že rozšíření GPT-4o o CodeSteer zvýšilo jeho přesnost při symbolických úlohách o více než 30 %, čímž se jeho průměrné skóre zvýšilo z 53,3 na 86,4 v rámci 37 úloh. Díky tomu dokázal překonat i pokročilejší modely jako OpenAI o1 (82,7) a DeepSeek R1 (76,8). Pozoruhodné je, že CodeSteer prokázal i silnou obecnou použitelnost – při aplikaci na jiné modely, jako jsou Claude, Mistral a GPT-3.5, zvýšil jejich výkon v průměru o 41,8 %.
Pro vývoj a testování CodeSteer vytvořili výzkumníci SymBench, komplexní benchmark obsahující 37 symbolických úloh s nastavitelnou složitostí. Tyto úlohy zahrnují matematiku, prostorové uvažování, logiku, uvažování o pořadí a optimalizační problémy.
Tento průlom by mohl výrazně zlepšit schopnosti AI řešit komplexní úkoly, které je obtížné zvládnout pouze textovým uvažováním – například generování tras pro roboty v nejistém prostředí nebo plánování přepravy v mezinárodních dodavatelských řetězcích.
„Tím, že LLM rozšíříme o schopnost chytře využívat kódování, můžeme již tak silný model ještě více vylepšit,“ poznamenává Chen. Výzkumníci nyní pracují na zefektivnění CodeSteer, aby urychlili jeho iterativní proces navrhování, a zkoumají možnosti doladění jednotného modelu, který by dokázal přepínat mezi textovým uvažováním a generováním kódu bez nutnosti samostatného asistenta.