Veľké jazykové modely (LLM) vynikajú v chápaní kontextu a poskytovaní logických odpovedí prostredníctvom textového uvažovania. Často však majú problémy s výpočtovými úlohami, ktoré by bolo vhodnejšie riešiť pomocou kódu, ako je porovnávanie desatinných čísel alebo riešenie optimalizačných problémov.
Aby túto slabinu prekonali, výskumníci z MIT vyvinuli CodeSteer – inteligentného asistenta, ktorý pôsobí ako tréner pre väčšie jazykové modely a vedie ich k prepínaniu medzi generovaním textu a kódu, až kým správne nezodpovedajú otázku.
„Inšpirovali sme sa ľuďmi. V športe nemusí byť tréner lepší ako hviezda tímu, no aj tak vie dať užitočné rady, ktoré športovca nasmerujú. Tento spôsob vedenia funguje aj pri LLM,“ vysvetľuje Yongchao Chen, doktorand na Harvardovej univerzite a MIT, ktorý na projekte pracoval.
CodeSteer, ktorý je sám menším LLM doladeným na modeli Llama-3-8B, funguje tak, že najprv preskúma otázku a rozhodne, či je vhodnejšie použiť text alebo kód na jej riešenie. Následne vytvára podnety pre väčší LLM a usmerňuje ho, aby použil správnu metódu. Ak odpoveď nie je správna, CodeSteer pokračuje v zadávaní ďalších podnetov, kým model nedosiahne správne riešenie.
Výskumníci zistili, že doplnením GPT-4o o CodeSteer sa jeho presnosť pri symbolických úlohách zvýšila o viac ako 30 %, pričom priemerné skóre výkonu stúplo z 53,3 na 86,4 v rámci 37 úloh. Tento pokrok umožnil modelu prekonávať aj pokročilejšie modely ako OpenAI's o1 (82,7) a DeepSeek R1 (76,8). Pozoruhodné je, že CodeSteer preukázal aj silnú všeobecnú použiteľnosť – pri iných modeloch ako Claude, Mistral a GPT-3.5 zvýšil výkon v priemere o 41,8 %.
Na vývoj a testovanie CodeSteer vytvorili výskumníci SymBench – komplexný benchmark pozostávajúci z 37 symbolických úloh s nastaviteľnou zložitosťou. Úlohy zahŕňajú matematiku, priestorové uvažovanie, logiku, poradie a optimalizačné problémy.
Tento prelom by mohol výrazne zlepšiť schopnosti AI riešiť zložité úlohy, ktoré je náročné zvládnuť iba textovým uvažovaním, napríklad generovanie trás pre roboty v neistých prostrediach alebo plánovanie prepravy v medzinárodných dodávateľských reťazcoch.
„Ak LLM doplníme o schopnosť inteligentne využívať kódovanie, môžeme už aj tak veľmi silný model ešte viac vylepšiť,“ poznamenáva Chen. Výskumníci teraz pracujú na zefektívnení CodeSteer, aby urýchlili jeho iteratívny proces podnetov, a skúmajú možnosti doladenia jednotného modelu, ktorý by dokázal prepínať medzi textovým uvažovaním a generovaním kódu bez potreby samostatného asistenta.