AI треньорът на MIT подобрява способностите за решаване на задачи на езиковите модели

Изследователи от MIT създадоха CodeSteer – интелигентен асистент, който насочва големите езикови модели да превключват между генериране на текст и код, докато не отговорят правилно на сложни въпроси. Системата увеличава точността на LLM при символни задачи като математически проблеми и пространствено мислене с над 30%, позволявайки на по-малко усъвършенствани модели да надминат по-напреднали. Това постижение може значително да подобри способностите на ИИ за решаване на сложни задачи в роботиката, управлението на веригите за доставки и други области, изискващи прецизно изчислително мислене.

Големите езикови модели (LLM) се отличават в разбирането на контекст и предоставянето на логични отговори чрез текстово разсъждение. Въпреки това, те често срещат затруднения при изчислителни задачи, които биха били по-лесно решени с помощта на код, като сравняване на десетични числа или решаване на оптимизационни проблеми.

За да преодолеят това ограничение, изследователи от MIT разработиха CodeSteer – интелигентен асистент, който действа като треньор за големите езикови модели, насочвайки ги да превключват между генериране на текст и код, докато не намерят правилния отговор на даден въпрос.

„Вдъхновихме се от хората. В спорта треньорът може да не е по-добър от звездния спортист в отбора, но въпреки това може да даде полезни съвети, които да го насочат. Този метод на насочване работи и при LLM“, обяснява Йонгчао Чен, докторант в Харвард и MIT, участвал в проекта.

Самият CodeSteer е по-малък езиков модел, дообучен на базата на Llama-3-8B. Той преглежда запитването и определя дали текст или код е по-подходящ за решаване на проблема, след което генерира подсказки за по-големия LLM, насочвайки го към подходящия метод. Ако отговорът не е верен, CodeSteer продължава да подава нови подсказки, докато не се достигне правилното решение.

Изследователите установяват, че добавянето на CodeSteer към GPT-4o увеличава точността му при символни задачи с над 30%, като средният резултат се повишава от 53,3 на 86,4 точки при 37 задачи. Това подобрение му позволява да надмине дори по-усъвършенствани модели като OpenAI o1 (82,7) и DeepSeek R1 (76,8). Впечатляващо е, че CodeSteer показва и силна обобщаемост, като осигурява средно 41,8% повишение на резултатите при други модели като Claude, Mistral и GPT-3.5.

За да разработят и тестват CodeSteer, изследователите създават SymBench – комплексен бенчмарк, включващ 37 символни задачи с регулируема сложност. Те обхващат математика, пространствено мислене, логика, подредба и оптимизационни проблеми.

Това постижение може значително да подобри способностите на ИИ за решаване на сложни задачи, които трудно се решават само с текстово разсъждение – например генериране на маршрути за роботи в несигурни среди или планиране на доставки във вериги за международни доставки.

„Като добавим към LLM способността умело да използва код, можем да вземем модел, който вече е много силен, и да подобрим представянето му още повече“, отбелязва Чен. В момента изследователите работят по оптимизиране на CodeSteer за ускоряване на итеративния процес на подсказване и проучват възможността за дообучаване на обединен модел, който да може да превключва между текстово разсъждение и генериране на код без нужда от отделен асистент.

AI треньорът на MIT подобрява способностите за решаване на задачи на езиковите модели

Latest News

OpenAI обединява AI инструментите с ChatGPT Agent за автономни задачи

OpenAI ще превърне ChatGPT в търговски хъб с интегрирано плащане чрез Shopify

Автоматизацията с изкуствен интелект движи растежа на Tech Mahindra въпреки предизвикателствата в ИТ сектора

xAI пуска сексуализирани AI спътници на фона на договор с Пентагона

Изкуственият интелект на Google вече провежда телефонни обаждания вместо вас

Лабораторията Thinking Machines на Мира Мурати осигури 2 млрд. долара за AI революция

S&P Global представя AI-готови метаданни за трансформация на финансовата аналитика

Федералният резерв възприема изкуствения интелект за изследвания, докато проучва икономическото му въздействие

AWS представя персонализирана охладителна система за следващо поколение AI чипове

MIT очертава пречките пред софтуерното инженерство, задвижвано от изкуствен интелект

AI треньорът на MIT подобрява способностите за решаване на задачи на езиковите модели

Related Articles

OpenAI обединява AI инструментите с ChatGPT Agent за автономни задачи

OpenAI ще превърне ChatGPT в търговски хъб с интегрирано плащане чрез Shopify

Автоматизацията с изкуствен интелект движи растежа на Tech Mahindra въпреки предизвикателствата в ИТ сектора

xAI пуска сексуализирани AI спътници на фона на договор с Пентагона

Федералният резерв възприема изкуствения интелект за изследвания, докато проучва икономическото му въздействие

Latest News

OpenAI обединява AI инструментите с ChatGPT Agent за автономни задачи

OpenAI ще превърне ChatGPT в търговски хъб с интегрирано плащане чрез Shopify

Автоматизацията с изкуствен интелект движи растежа на Tech Mahindra въпреки предизвикателствата в ИТ сектора

xAI пуска сексуализирани AI спътници на фона на договор с Пентагона

Изкуственият интелект на Google вече провежда телефонни обаждания вместо вас

Лабораторията Thinking Machines на Мира Мурати осигури 2 млрд. долара за AI революция

S&P Global представя AI-готови метаданни за трансформация на финансовата аналитика

Федералният резерв възприема изкуствения интелект за изследвания, докато проучва икономическото му въздействие

AWS представя персонализирана охладителна система за следващо поколение AI чипове

MIT очертава пречките пред софтуерното инженерство, задвижвано от изкуствен интелект