AI Coach ng MIT, Pinahusay ang Kakayahan ng mga Language Model sa Pagsosolusyon ng Problema

Nakabuo ang mga mananaliksik mula sa MIT ng CodeSteer, isang matalinong assistant na gumagabay sa malalaking language model upang magpalit-palit sa pagitan ng pagbuo ng teksto at code hanggang sa tama nilang masagot ang masalimuot na mga tanong. Tumaas ng mahigit 30% ang katumpakan ng mga LLM sa mga simbolikong gawain gaya ng mga problemang matematikal at spatial reasoning, na nagbigay-daan para malampasan ng mas simpleng modelo ang mas advanced na mga kakumpitensya. Ang tagumpay na ito ay maaaring magdulot ng malaking pag-unlad sa kakayahan ng AI sa pagsosolusyon ng komplikadong mga gawain sa robotics, pamamahala ng supply chain, at iba pang larangang nangangailangan ng eksaktong computational reasoning.

Mahusay ang malalaking language model (LLM) sa pag-unawa ng konteksto at pagbibigay ng lohikal na sagot gamit ang tekstuwal na pangangatwiran. Gayunpaman, madalas silang mahirapan sa mga computational na gawain na mas mainam sanang lutasin gamit ang code, gaya ng paghahambing ng decimal na mga numero o pagsosolusyon ng mga optimization problem.

Upang tugunan ang limitasyong ito, nakabuo ang mga mananaliksik mula sa MIT ng CodeSteer—isang matalinong assistant na nagsisilbing coach para sa mas malalaking language model, ginagabayan ang mga ito na magpalit-palit sa pagitan ng paggawa ng teksto at code hanggang sa tama nilang masagot ang isang tanong.

"Na-inspire kami ng mga tao. Sa sports, maaaring hindi mas magaling ang trainer kaysa sa star athlete ng team, pero kaya pa rin ng trainer magbigay ng kapaki-pakinabang na suhestiyon para gabayan ang atleta. Gumagana rin ang ganitong steering method para sa mga LLM," paliwanag ni Yongchao Chen, isang graduate student sa Harvard at MIT na kasali sa proyekto.

Ang CodeSteer, na isa ring mas maliit na LLM na na-fine-tune sa Llama-3-8B model, ay gumagana sa pamamagitan ng pagsusuri ng tanong at pagtukoy kung mas angkop bang gamitin ang teksto o code sa paglutas ng problema. Pagkatapos, ito ay bumubuo ng mga prompt para sa mas malaking LLM, ginagabayan ito na gamitin ang tamang paraan. Kapag hindi tama ang sagot, patuloy na pinoprompt ng CodeSteer ang LLM upang subukan ang iba't ibang paraan hanggang makuha ang tamang solusyon.

Natuklasan ng mga mananaliksik na ang pagdagdag ng CodeSteer sa GPT-4o ay nagtaas ng katumpakan nito sa mga simbolikong gawain ng mahigit 30%, mula sa average na performance score na 53.3 papuntang 86.4 sa 37 na gawain. Dahil dito, nalampasan nito ang mas advanced na mga modelo gaya ng OpenAI's o1 (82.7) at DeepSeek R1 (76.8). Kapansin-pansin, ipinakita rin ng CodeSteer ang malakas na generalizability, na nagbigay ng average na 41.8% na pagtaas sa performance nang gamitin sa iba pang mga modelo gaya ng Claude, Mistral, at GPT-3.5.

Upang mabuo at masubukan ang CodeSteer, gumawa ang mga mananaliksik ng SymBench, isang komprehensibong benchmark na binubuo ng 37 simbolikong gawain na may iba't ibang antas ng kahirapan. Sinasaklaw ng mga gawaing ito ang matematika, spatial reasoning, lohika, order reasoning, at mga optimization problem.

Ang tagumpay na ito ay maaaring magdulot ng malaking pag-unlad sa kakayahan ng AI sa pagsosolusyon ng mga komplikadong gawain na mahirap lutasin gamit lang ang tekstuwal na pangangatwiran, gaya ng pagbuo ng ruta para sa mga robot sa hindi tiyak na mga kapaligiran o pag-schedule ng mga padala sa internasyonal na supply chain.

"Sa pamamagitan ng pagdagdag ng kakayahan sa isang LLM na matalinong gumamit ng coding, kaya nating pagbutihin pa ang performance ng isang modelong dati nang malakas," ani Chen. Sa ngayon, pinapahusay pa ng mga mananaliksik ang CodeSteer upang mapabilis ang iterative prompting process nito at pinag-aaralan kung paano mag-fine-tune ng isang unified model na kayang magpalit-palit sa pagitan ng tekstuwal na pangangatwiran at pagbuo ng code nang hindi na kailangan ng hiwalay na assistant.

AI Coach ng MIT, Pinahusay ang Kakayahan ng mga Language Model sa Pagsosolusyon ng Problema

Latest News

Pinag-isa ng OpenAI ang mga AI Tool sa Pamamagitan ng ChatGPT Agent para sa Awtonomong mga Gawain

OpenAI, Gagawing Sentro ng Pamimili ang ChatGPT gamit ang Shopify Checkout

AI Automation, Nagpapalago sa Tech Mahindra sa Kabila ng mga Hamon sa IT

xAI Naglunsad ng Seksuwalisadong AI na mga Kapanalig Kasabay ng Pentagon Deal

AI ng Google, Tumatawag na sa Telepono Para sa Iyo

Thinking Machines Lab ni Murati Nakakuha ng $2B Pondo para sa Rebolusyon sa AI

Inilunsad ng S&P Global ang AI-Ready Metadata para Baguhin ang Financial Analytics

Yumakap ang Fed sa AI para sa Pananaliksik Habang Pinag-aaralan ang Epekto Nito sa Ekonomiya

Inilunsad ng AWS ang Custom na Sistema ng Pagpapalamig para sa Next-Gen AI Chips

Tinukoy ng MIT ang mga Hadlang sa AI-Driven na Software Engineering

AI Coach ng MIT, Pinahusay ang Kakayahan ng mga Language Model sa Pagsosolusyon ng Problema

Related Articles

Pinag-isa ng OpenAI ang mga AI Tool sa Pamamagitan ng ChatGPT Agent para sa Awtonomong mga Gawain

OpenAI, Gagawing Sentro ng Pamimili ang ChatGPT gamit ang Shopify Checkout

AI Automation, Nagpapalago sa Tech Mahindra sa Kabila ng mga Hamon sa IT

xAI Naglunsad ng Seksuwalisadong AI na mga Kapanalig Kasabay ng Pentagon Deal

Yumakap ang Fed sa AI para sa Pananaliksik Habang Pinag-aaralan ang Epekto Nito sa Ekonomiya

Latest News

Pinag-isa ng OpenAI ang mga AI Tool sa Pamamagitan ng ChatGPT Agent para sa Awtonomong mga Gawain

OpenAI, Gagawing Sentro ng Pamimili ang ChatGPT gamit ang Shopify Checkout

AI Automation, Nagpapalago sa Tech Mahindra sa Kabila ng mga Hamon sa IT

xAI Naglunsad ng Seksuwalisadong AI na mga Kapanalig Kasabay ng Pentagon Deal

AI ng Google, Tumatawag na sa Telepono Para sa Iyo

Thinking Machines Lab ni Murati Nakakuha ng $2B Pondo para sa Rebolusyon sa AI

Inilunsad ng S&P Global ang AI-Ready Metadata para Baguhin ang Financial Analytics

Yumakap ang Fed sa AI para sa Pananaliksik Habang Pinag-aaralan ang Epekto Nito sa Ekonomiya

Inilunsad ng AWS ang Custom na Sistema ng Pagpapalamig para sa Next-Gen AI Chips

Tinukoy ng MIT ang mga Hadlang sa AI-Driven na Software Engineering