menu
close

ИИ-тренер MIT повышает способности языковых моделей к решению задач

Исследователи из MIT разработали CodeSteer — интеллектуального помощника, который направляет большие языковые модели, позволяя им переключаться между генерацией текста и кода до получения правильного ответа на сложные запросы. Система повысила точность LLM при выполнении символьных задач, таких как математические задачи и пространственное мышление, более чем на 30%, что позволило менее продвинутым моделям превосходить более совершенные аналоги. Этот прорыв может значительно улучшить способности ИИ к решению сложных задач в робототехнике, управлении цепочками поставок и других областях, где требуется точное вычислительное рассуждение.
ИИ-тренер MIT повышает способности языковых моделей к решению задач

Большие языковые модели (LLM) превосходно понимают контекст и выдают логичные ответы с помощью текстовых рассуждений. Однако им часто сложно справляться с вычислительными задачами, которые эффективнее решаются с помощью кода, например, при сравнении десятичных чисел или решении задач оптимизации.

Чтобы преодолеть это ограничение, исследователи из MIT создали CodeSteer — интеллектуального помощника, который выступает в роли тренера для крупных языковых моделей, направляя их на переключение между генерацией текста и кода до получения правильного ответа на запрос.

«Мы вдохновлялись людьми. В спорте тренер может быть не сильнее звезды команды, но он способен давать полезные советы и направлять спортсмена. Такой подход работает и для LLM», — объясняет Ёнчао Чен, аспирант Гарварда и MIT, участвовавший в проекте.

Сам CodeSteer — это меньшая языковая модель, дообученная на основе Llama-3-8B. Она анализирует запрос и определяет, что лучше использовать для решения задачи — текст или код. Затем CodeSteer формирует подсказки для большей LLM, направляя её к выбору подходящего метода. Если ответ оказывается неверным, CodeSteer продолжает подсказывать LLM пробовать разные подходы, пока не будет найдено правильное решение.

Исследователи выяснили, что добавление CodeSteer к GPT-4o увеличило точность на символьных задачах более чем на 30% — средний балл вырос с 53,3 до 86,4 по 37 задачам. Это позволило модели обойти даже более продвинутые аналоги, такие как OpenAI o1 (82,7) и DeepSeek R1 (76,8). Примечательно, что CodeSteer также показал высокую универсальность, обеспечив в среднем 41,8% прироста производительности при применении к другим моделям, включая Claude, Mistral и GPT-3.5.

Для разработки и тестирования CodeSteer исследователи создали SymBench — комплексный бенчмарк, включающий 37 символьных задач с настраиваемой сложностью. Задачи охватывают математику, пространственное мышление, логику, рассуждение о порядке и задачи оптимизации.

Этот прорыв может значительно улучшить способности ИИ к решению сложных задач, которые трудно решить только с помощью текстовых рассуждений, например, при построении маршрутов для роботов в неопределённых условиях или планировании отгрузок в международных цепочках поставок.

«Добавив к LLM возможность умело использовать код, мы можем взять уже очень сильную модель и сделать её ещё лучше», — отмечает Чен. Сейчас исследователи работают над оптимизацией CodeSteer для ускорения итеративного процесса подсказок, а также изучают возможность дообучения единой модели, способной переключаться между текстовыми рассуждениями и генерацией кода без отдельного помощника.

Source: Techxplore

Latest News