ИИ-тренер MIT повышает способности языковых моделей к решению задач

Исследователи из MIT разработали CodeSteer — интеллектуального помощника, который направляет большие языковые модели, позволяя им переключаться между генерацией текста и кода до получения правильного ответа на сложные запросы. Система повысила точность LLM при выполнении символьных задач, таких как математические задачи и пространственное мышление, более чем на 30%, что позволило менее продвинутым моделям превосходить более совершенные аналоги. Этот прорыв может значительно улучшить способности ИИ к решению сложных задач в робототехнике, управлении цепочками поставок и других областях, где требуется точное вычислительное рассуждение.

Большие языковые модели (LLM) превосходно понимают контекст и выдают логичные ответы с помощью текстовых рассуждений. Однако им часто сложно справляться с вычислительными задачами, которые эффективнее решаются с помощью кода, например, при сравнении десятичных чисел или решении задач оптимизации.

Чтобы преодолеть это ограничение, исследователи из MIT создали CodeSteer — интеллектуального помощника, который выступает в роли тренера для крупных языковых моделей, направляя их на переключение между генерацией текста и кода до получения правильного ответа на запрос.

«Мы вдохновлялись людьми. В спорте тренер может быть не сильнее звезды команды, но он способен давать полезные советы и направлять спортсмена. Такой подход работает и для LLM», — объясняет Ёнчао Чен, аспирант Гарварда и MIT, участвовавший в проекте.

Сам CodeSteer — это меньшая языковая модель, дообученная на основе Llama-3-8B. Она анализирует запрос и определяет, что лучше использовать для решения задачи — текст или код. Затем CodeSteer формирует подсказки для большей LLM, направляя её к выбору подходящего метода. Если ответ оказывается неверным, CodeSteer продолжает подсказывать LLM пробовать разные подходы, пока не будет найдено правильное решение.

Исследователи выяснили, что добавление CodeSteer к GPT-4o увеличило точность на символьных задачах более чем на 30% — средний балл вырос с 53,3 до 86,4 по 37 задачам. Это позволило модели обойти даже более продвинутые аналоги, такие как OpenAI o1 (82,7) и DeepSeek R1 (76,8). Примечательно, что CodeSteer также показал высокую универсальность, обеспечив в среднем 41,8% прироста производительности при применении к другим моделям, включая Claude, Mistral и GPT-3.5.

Для разработки и тестирования CodeSteer исследователи создали SymBench — комплексный бенчмарк, включающий 37 символьных задач с настраиваемой сложностью. Задачи охватывают математику, пространственное мышление, логику, рассуждение о порядке и задачи оптимизации.

Этот прорыв может значительно улучшить способности ИИ к решению сложных задач, которые трудно решить только с помощью текстовых рассуждений, например, при построении маршрутов для роботов в неопределённых условиях или планировании отгрузок в международных цепочках поставок.

«Добавив к LLM возможность умело использовать код, мы можем взять уже очень сильную модель и сделать её ещё лучше», — отмечает Чен. Сейчас исследователи работают над оптимизацией CodeSteer для ускорения итеративного процесса подсказок, а также изучают возможность дообучения единой модели, способной переключаться между текстовыми рассуждениями и генерацией кода без отдельного помощника.

ИИ-тренер MIT повышает способности языковых моделей к решению задач

Latest News

OpenAI объединяет инструменты ИИ с помощью ChatGPT Agent для автономного выполнения задач

OpenAI преобразует ChatGPT в торговую платформу с интеграцией оформления заказов от Shopify

Автоматизация на базе ИИ стимулирует рост Tech Mahindra несмотря на сложности в ИТ-секторе

xAI запускает сексуализированных ИИ-спутников на фоне контракта с Пентагоном

ИИ Google теперь совершает телефонные звонки вместо вас

Лаборатория Thinking Machines Мира Мурати привлекла $2 млрд для ИИ-революции

S&P Global представляет AI-готовые метаданные для трансформации финансовой аналитики

ФРС внедряет ИИ для исследований, одновременно изучая его экономическое влияние

AWS представляет собственную систему охлаждения для чипов ИИ нового поколения

MIT выявил препятствия на пути к автоматизированной разработке ПО с помощью ИИ

ИИ-тренер MIT повышает способности языковых моделей к решению задач

Related Articles

OpenAI объединяет инструменты ИИ с помощью ChatGPT Agent для автономного выполнения задач

OpenAI преобразует ChatGPT в торговую платформу с интеграцией оформления заказов от Shopify

Автоматизация на базе ИИ стимулирует рост Tech Mahindra несмотря на сложности в ИТ-секторе

xAI запускает сексуализированных ИИ-спутников на фоне контракта с Пентагоном

ФРС внедряет ИИ для исследований, одновременно изучая его экономическое влияние

Latest News

OpenAI объединяет инструменты ИИ с помощью ChatGPT Agent для автономного выполнения задач

OpenAI преобразует ChatGPT в торговую платформу с интеграцией оформления заказов от Shopify

Автоматизация на базе ИИ стимулирует рост Tech Mahindra несмотря на сложности в ИТ-секторе

xAI запускает сексуализированных ИИ-спутников на фоне контракта с Пентагоном

ИИ Google теперь совершает телефонные звонки вместо вас

Лаборатория Thinking Machines Мира Мурати привлекла $2 млрд для ИИ-революции

S&P Global представляет AI-готовые метаданные для трансформации финансовой аналитики

ФРС внедряет ИИ для исследований, одновременно изучая его экономическое влияние

AWS представляет собственную систему охлаждения для чипов ИИ нового поколения

MIT выявил препятствия на пути к автоматизированной разработке ПО с помощью ИИ