MIT představuje AI kouče, který zlepšuje schopnosti jazykových modelů řešit problémy

Výzkumníci z MIT vyvinuli CodeSteer, inteligentního asistenta, který vede velké jazykové modely k přepínání mezi generováním textu a kódu, dokud správně nezodpoví složité dotazy. Systém zvýšil přesnost LLM při symbolických úlohách, jako jsou matematické problémy a prostorové uvažování, o více než 30 %, což umožnilo méně sofistikovaným modelům překonat i ty pokročilejší. Tento průlom by mohl výrazně zlepšit schopnosti AI řešit komplexní úkoly v robotice, řízení dodavatelských řetězců a dalších oblastech vyžadujících přesné výpočetní uvažování.

Velké jazykové modely (LLM) vynikají v porozumění kontextu a poskytování logických odpovědí prostřednictvím textového uvažování. Často však narážejí na obtíže u výpočetních úloh, které by bylo vhodnější řešit pomocí kódu, například při porovnávání desetinných čísel nebo řešení optimalizačních problémů.

Aby tuto slabinu překonali, vyvinuli výzkumníci z MIT systém CodeSteer – chytrého asistenta, který funguje jako kouč pro větší jazykové modely a vede je k přepínání mezi generováním textu a kódu, dokud správně nezodpoví dotaz.

„Inspirovali jsme se lidmi. Ve sportu nemusí být trenér lepší než hvězdný hráč týmu, ale přesto může dávat užitečné rady, které sportovce nasměrují. Tento způsob vedení funguje i u LLM,“ vysvětluje Yongchao Chen, doktorand na Harvardu a MIT, který se na projektu podílel.

CodeSteer, sám o sobě menší LLM doladěný na modelu Llama-3-8B, pracuje tak, že analyzuje dotaz a určuje, zda je pro řešení problému vhodnější text nebo kód. Poté generuje podněty pro větší LLM a vede jej k použití správné metody. Pokud odpověď není správná, CodeSteer pokračuje v navrhování různých přístupů, dokud nedojde ke správnému řešení.

Výzkumníci zjistili, že rozšíření GPT-4o o CodeSteer zvýšilo jeho přesnost při symbolických úlohách o více než 30 %, čímž se jeho průměrné skóre zvýšilo z 53,3 na 86,4 v rámci 37 úloh. Díky tomu dokázal překonat i pokročilejší modely jako OpenAI o1 (82,7) a DeepSeek R1 (76,8). Pozoruhodné je, že CodeSteer prokázal i silnou obecnou použitelnost – při aplikaci na jiné modely, jako jsou Claude, Mistral a GPT-3.5, zvýšil jejich výkon v průměru o 41,8 %.

Pro vývoj a testování CodeSteer vytvořili výzkumníci SymBench, komplexní benchmark obsahující 37 symbolických úloh s nastavitelnou složitostí. Tyto úlohy zahrnují matematiku, prostorové uvažování, logiku, uvažování o pořadí a optimalizační problémy.

Tento průlom by mohl výrazně zlepšit schopnosti AI řešit komplexní úkoly, které je obtížné zvládnout pouze textovým uvažováním – například generování tras pro roboty v nejistém prostředí nebo plánování přepravy v mezinárodních dodavatelských řetězcích.

„Tím, že LLM rozšíříme o schopnost chytře využívat kódování, můžeme již tak silný model ještě více vylepšit,“ poznamenává Chen. Výzkumníci nyní pracují na zefektivnění CodeSteer, aby urychlili jeho iterativní proces navrhování, a zkoumají možnosti doladění jednotného modelu, který by dokázal přepínat mezi textovým uvažováním a generováním kódu bez nutnosti samostatného asistenta.

MIT představuje AI kouče, který zlepšuje schopnosti jazykových modelů řešit problémy

Latest News

OpenAI sjednocuje AI nástroje s ChatGPT Agentem pro autonomní úkoly

OpenAI promění ChatGPT v nákupní centrum s pokladnou Shopify

Automatizace pomocí AI pohání růst Tech Mahindra navzdory nepříznivým podmínkám v IT

xAI uvádí sexualizované AI společníky v době uzavření smlouvy s Pentagonem

Google AI nyní volá za vás, abyste nemuseli telefonovat sami

Thinking Machines Lab Mira Murati získává 2 miliardy dolarů na AI revoluci

S&P Global představuje AI-ready metadata, která mění finanční analytiku

Fed využívá umělou inteligenci pro výzkum a zároveň zkoumá její ekonomické dopady

AWS představuje vlastní chladicí systém pro nové AI čipy

MIT mapuje překážky na cestě k AI-řízenému softwarovému inženýrství

MIT představuje AI kouče, který zlepšuje schopnosti jazykových modelů řešit problémy

Related Articles

OpenAI sjednocuje AI nástroje s ChatGPT Agentem pro autonomní úkoly

OpenAI promění ChatGPT v nákupní centrum s pokladnou Shopify

Automatizace pomocí AI pohání růst Tech Mahindra navzdory nepříznivým podmínkám v IT

xAI uvádí sexualizované AI společníky v době uzavření smlouvy s Pentagonem

Fed využívá umělou inteligenci pro výzkum a zároveň zkoumá její ekonomické dopady

Latest News

OpenAI sjednocuje AI nástroje s ChatGPT Agentem pro autonomní úkoly

OpenAI promění ChatGPT v nákupní centrum s pokladnou Shopify

Automatizace pomocí AI pohání růst Tech Mahindra navzdory nepříznivým podmínkám v IT

xAI uvádí sexualizované AI společníky v době uzavření smlouvy s Pentagonem

Google AI nyní volá za vás, abyste nemuseli telefonovat sami

Thinking Machines Lab Mira Murati získává 2 miliardy dolarů na AI revoluci

S&P Global představuje AI-ready metadata, která mění finanční analytiku

Fed využívá umělou inteligenci pro výzkum a zároveň zkoumá její ekonomické dopady

AWS představuje vlastní chladicí systém pro nové AI čipy

MIT mapuje překážky na cestě k AI-řízenému softwarovému inženýrství