Великі мовні моделі (LLM) відзначаються розумінням контексту та здатністю логічно відповідати завдяки текстовому міркуванню. Однак вони часто стикаються з труднощами при виконанні обчислювальних завдань, які краще вирішувати за допомогою коду, наприклад, порівняння десяткових чисел чи розв'язання задач оптимізації.
Щоб подолати це обмеження, дослідники з MIT створили CodeSteer — розумного асистента, який виступає тренером для більших мовних моделей, спрямовуючи їх перемикатися між генерацією тексту та коду до отримання правильної відповіді на запит.
«Нас надихнули люди. У спорті тренер може бути не кращим за зіркового спортсмена, але все одно здатен дати корисні поради. Такий підхід працює і для LLM», — пояснює Юнчао Чен, аспірант Гарварду та MIT, який працював над проєктом.
CodeSteer, що сам є меншою LLM, донавченою на моделі Llama-3-8B, аналізує запит і визначає, чи доцільніше вирішувати задачу текстом чи кодом. Далі він генерує підказки для більшої LLM, спрямовуючи її використовувати відповідний метод. Якщо відповідь неправильна, CodeSteer продовжує підказувати LLM пробувати різні підходи, доки не буде знайдено правильне рішення.
Дослідники виявили, що додавання CodeSteer до GPT-4o підвищило його точність у символьних завданнях більш ніж на 30%, піднявши середній бал з 53,3 до 86,4 за 37 завданнями. Це дозволило йому перевершити навіть більш просунуті моделі, такі як OpenAI o1 (82,7) та DeepSeek R1 (76,8). Вражаюче, CodeSteer також продемонстрував високу універсальність, забезпечивши в середньому 41,8% приросту продуктивності при застосуванні до інших моделей, таких як Claude, Mistral та GPT-3.5.
Для розробки та тестування CodeSteer дослідники створили SymBench — комплексний бенчмарк із 37 символьних завдань з регульованою складністю. Ці завдання охоплюють математику, просторове мислення, логіку, порядкове міркування та задачі оптимізації.
Це досягнення може суттєво покращити здатність ШІ вирішувати складні завдання, які важко розв'язати лише текстовим міркуванням, наприклад, прокладання маршрутів для роботів у невизначених середовищах чи планування відправлень у міжнародних ланцюгах постачання.
«Додавши до LLM здатність розумно використовувати кодування, ми можемо взяти вже дуже потужну модель і ще більше підвищити її ефективність», — зазначає Чен. Наразі дослідники працюють над оптимізацією CodeSteer для прискорення ітеративного процесу підказок і вивчають можливість донавчання єдиної моделі, яка зможе перемикатися між текстовим міркуванням і генерацією коду без окремого асистента.