AI tréner z MIT zvyšuje schopnosti jazykových modelov riešiť problémy

Výskumníci z MIT vyvinuli CodeSteer, inteligentného asistenta, ktorý vedie veľké jazykové modely k prepínaniu medzi generovaním textu a kódu, až kým správne nezodpovedajú zložité otázky. Systém zvýšil presnosť LLM pri symbolických úlohách, ako sú matematické problémy a priestorové uvažovanie, o viac ako 30 %, čo umožnilo menej sofistikovaným modelom prekonávať aj pokročilejšie. Tento prelom by mohol výrazne zlepšiť schopnosti AI riešiť komplexné úlohy v robotike, riadení dodávateľských reťazcov a ďalších oblastiach vyžadujúcich presné výpočtové uvažovanie.

Veľké jazykové modely (LLM) vynikajú v chápaní kontextu a poskytovaní logických odpovedí prostredníctvom textového uvažovania. Často však majú problémy s výpočtovými úlohami, ktoré by bolo vhodnejšie riešiť pomocou kódu, ako je porovnávanie desatinných čísel alebo riešenie optimalizačných problémov.

Aby túto slabinu prekonali, výskumníci z MIT vyvinuli CodeSteer – inteligentného asistenta, ktorý pôsobí ako tréner pre väčšie jazykové modely a vedie ich k prepínaniu medzi generovaním textu a kódu, až kým správne nezodpovedajú otázku.

„Inšpirovali sme sa ľuďmi. V športe nemusí byť tréner lepší ako hviezda tímu, no aj tak vie dať užitočné rady, ktoré športovca nasmerujú. Tento spôsob vedenia funguje aj pri LLM,“ vysvetľuje Yongchao Chen, doktorand na Harvardovej univerzite a MIT, ktorý na projekte pracoval.

CodeSteer, ktorý je sám menším LLM doladeným na modeli Llama-3-8B, funguje tak, že najprv preskúma otázku a rozhodne, či je vhodnejšie použiť text alebo kód na jej riešenie. Následne vytvára podnety pre väčší LLM a usmerňuje ho, aby použil správnu metódu. Ak odpoveď nie je správna, CodeSteer pokračuje v zadávaní ďalších podnetov, kým model nedosiahne správne riešenie.

Výskumníci zistili, že doplnením GPT-4o o CodeSteer sa jeho presnosť pri symbolických úlohách zvýšila o viac ako 30 %, pričom priemerné skóre výkonu stúplo z 53,3 na 86,4 v rámci 37 úloh. Tento pokrok umožnil modelu prekonávať aj pokročilejšie modely ako OpenAI's o1 (82,7) a DeepSeek R1 (76,8). Pozoruhodné je, že CodeSteer preukázal aj silnú všeobecnú použiteľnosť – pri iných modeloch ako Claude, Mistral a GPT-3.5 zvýšil výkon v priemere o 41,8 %.

Na vývoj a testovanie CodeSteer vytvorili výskumníci SymBench – komplexný benchmark pozostávajúci z 37 symbolických úloh s nastaviteľnou zložitosťou. Úlohy zahŕňajú matematiku, priestorové uvažovanie, logiku, poradie a optimalizačné problémy.

Tento prelom by mohol výrazne zlepšiť schopnosti AI riešiť zložité úlohy, ktoré je náročné zvládnuť iba textovým uvažovaním, napríklad generovanie trás pre roboty v neistých prostrediach alebo plánovanie prepravy v medzinárodných dodávateľských reťazcoch.

„Ak LLM doplníme o schopnosť inteligentne využívať kódovanie, môžeme už aj tak veľmi silný model ešte viac vylepšiť,“ poznamenáva Chen. Výskumníci teraz pracujú na zefektívnení CodeSteer, aby urýchlili jeho iteratívny proces podnetov, a skúmajú možnosti doladenia jednotného modelu, ktorý by dokázal prepínať medzi textovým uvažovaním a generovaním kódu bez potreby samostatného asistenta.

AI tréner z MIT zvyšuje schopnosti jazykových modelov riešiť problémy

Latest News

OpenAI zjednocuje AI nástroje s ChatGPT Agentom pre autonómne úlohy

OpenAI premení ChatGPT na nákupné centrum s platbami cez Shopify Checkout

Automatizácia pomocou AI poháňa rast Tech Mahindra napriek prekážkam v IT sektore

xAI uvádza sexualizovaných AI spoločníkov popri kontrakte s Pentagónom

Google AI teraz telefonuje za vás

Thinking Machines Lab Mira Murati získava 2 miliardy dolárov na AI revolúciu

S&P Global predstavuje AI-ready metadáta na transformáciu finančnej analytiky

Fed využíva AI na výskum a zároveň skúma jej vplyv na ekonomiku

AWS predstavuje vlastný chladiaci systém pre najnovšie AI čipy

MIT mapuje prekážky na ceste k AI-riadenému softvérovému inžinierstvu

AI tréner z MIT zvyšuje schopnosti jazykových modelov riešiť problémy

Related Articles

OpenAI zjednocuje AI nástroje s ChatGPT Agentom pre autonómne úlohy

OpenAI premení ChatGPT na nákupné centrum s platbami cez Shopify Checkout

Automatizácia pomocou AI poháňa rast Tech Mahindra napriek prekážkam v IT sektore

xAI uvádza sexualizovaných AI spoločníkov popri kontrakte s Pentagónom

Fed využíva AI na výskum a zároveň skúma jej vplyv na ekonomiku

Latest News

OpenAI zjednocuje AI nástroje s ChatGPT Agentom pre autonómne úlohy

OpenAI premení ChatGPT na nákupné centrum s platbami cez Shopify Checkout

Automatizácia pomocou AI poháňa rast Tech Mahindra napriek prekážkam v IT sektore

xAI uvádza sexualizovaných AI spoločníkov popri kontrakte s Pentagónom

Google AI teraz telefonuje za vás

Thinking Machines Lab Mira Murati získava 2 miliardy dolárov na AI revolúciu

S&P Global predstavuje AI-ready metadáta na transformáciu finančnej analytiky

Fed využíva AI na výskum a zároveň skúma jej vplyv na ekonomiku

AWS predstavuje vlastný chladiaci systém pre najnovšie AI čipy

MIT mapuje prekážky na ceste k AI-riadenému softvérovému inžinierstvu