AI-тренер від MIT підвищує здатність мовних моделей розв'язувати задачі

Дослідники MIT розробили CodeSteer — інтелектуального асистента, який спрямовує великі мовні моделі перемикатися між генерацією тексту та коду до отримання правильної відповіді на складні запити. Система підвищила точність LLM у символьних завданнях, таких як математичні задачі та просторове мислення, більш ніж на 30%, дозволяючи менш потужним моделям перевершувати більш досконалі. Це досягнення може суттєво покращити здатність ШІ вирішувати складні завдання у сфері робототехніки, управління ланцюгами постачання та інших галузях, що потребують точного обчислювального мислення.

Великі мовні моделі (LLM) відзначаються розумінням контексту та здатністю логічно відповідати завдяки текстовому міркуванню. Однак вони часто стикаються з труднощами при виконанні обчислювальних завдань, які краще вирішувати за допомогою коду, наприклад, порівняння десяткових чисел чи розв'язання задач оптимізації.

Щоб подолати це обмеження, дослідники з MIT створили CodeSteer — розумного асистента, який виступає тренером для більших мовних моделей, спрямовуючи їх перемикатися між генерацією тексту та коду до отримання правильної відповіді на запит.

«Нас надихнули люди. У спорті тренер може бути не кращим за зіркового спортсмена, але все одно здатен дати корисні поради. Такий підхід працює і для LLM», — пояснює Юнчао Чен, аспірант Гарварду та MIT, який працював над проєктом.

CodeSteer, що сам є меншою LLM, донавченою на моделі Llama-3-8B, аналізує запит і визначає, чи доцільніше вирішувати задачу текстом чи кодом. Далі він генерує підказки для більшої LLM, спрямовуючи її використовувати відповідний метод. Якщо відповідь неправильна, CodeSteer продовжує підказувати LLM пробувати різні підходи, доки не буде знайдено правильне рішення.

Дослідники виявили, що додавання CodeSteer до GPT-4o підвищило його точність у символьних завданнях більш ніж на 30%, піднявши середній бал з 53,3 до 86,4 за 37 завданнями. Це дозволило йому перевершити навіть більш просунуті моделі, такі як OpenAI o1 (82,7) та DeepSeek R1 (76,8). Вражаюче, CodeSteer також продемонстрував високу універсальність, забезпечивши в середньому 41,8% приросту продуктивності при застосуванні до інших моделей, таких як Claude, Mistral та GPT-3.5.

Для розробки та тестування CodeSteer дослідники створили SymBench — комплексний бенчмарк із 37 символьних завдань з регульованою складністю. Ці завдання охоплюють математику, просторове мислення, логіку, порядкове міркування та задачі оптимізації.

Це досягнення може суттєво покращити здатність ШІ вирішувати складні завдання, які важко розв'язати лише текстовим міркуванням, наприклад, прокладання маршрутів для роботів у невизначених середовищах чи планування відправлень у міжнародних ланцюгах постачання.

«Додавши до LLM здатність розумно використовувати кодування, ми можемо взяти вже дуже потужну модель і ще більше підвищити її ефективність», — зазначає Чен. Наразі дослідники працюють над оптимізацією CodeSteer для прискорення ітеративного процесу підказок і вивчають можливість донавчання єдиної моделі, яка зможе перемикатися між текстовим міркуванням і генерацією коду без окремого асистента.

AI-тренер від MIT підвищує здатність мовних моделей розв'язувати задачі

Latest News

OpenAI об’єднує інструменти ШІ за допомогою ChatGPT Agent для автономних завдань

OpenAI перетворить ChatGPT на торговий хаб із вбудованим Shopify Checkout

Автоматизація на базі ШІ стимулює зростання Tech Mahindra попри виклики в ІТ-галузі

xAI запускає сексуалізованих AI-компаньйонів на тлі контракту з Пентагоном

ШІ від Google тепер телефонує замість вас

Thinking Machines Lab Міри Мураті залучила $2 млрд для AI-революції

S&P Global презентує AI-готові метадані для трансформації фінансової аналітики

ФРС впроваджує ШІ для досліджень і вивчає його економічний вплив

AWS презентує власну систему охолодження для чипів штучного інтелекту нового покоління

MIT окреслює перепони на шляху до повністю автоматизованої розробки ПЗ за допомогою ШІ

AI-тренер від MIT підвищує здатність мовних моделей розв'язувати задачі

Related Articles

OpenAI об’єднує інструменти ШІ за допомогою ChatGPT Agent для автономних завдань

OpenAI перетворить ChatGPT на торговий хаб із вбудованим Shopify Checkout

Автоматизація на базі ШІ стимулює зростання Tech Mahindra попри виклики в ІТ-галузі

xAI запускає сексуалізованих AI-компаньйонів на тлі контракту з Пентагоном

ФРС впроваджує ШІ для досліджень і вивчає його економічний вплив

Latest News

OpenAI об’єднує інструменти ШІ за допомогою ChatGPT Agent для автономних завдань

OpenAI перетворить ChatGPT на торговий хаб із вбудованим Shopify Checkout

Автоматизація на базі ШІ стимулює зростання Tech Mahindra попри виклики в ІТ-галузі

xAI запускає сексуалізованих AI-компаньйонів на тлі контракту з Пентагоном

ШІ від Google тепер телефонує замість вас

Thinking Machines Lab Міри Мураті залучила $2 млрд для AI-революції

S&P Global презентує AI-готові метадані для трансформації фінансової аналітики

ФРС впроваджує ШІ для досліджень і вивчає його економічний вплив

AWS презентує власну систему охолодження для чипів штучного інтелекту нового покоління

MIT окреслює перепони на шляху до повністю автоматизованої розробки ПЗ за допомогою ШІ