Исследователи разработали новое поколение ИИ-моделей, которые могут динамически регулировать вычислительные усилия в зависимости от сложности задачи, что представляет собой серьёзный сдвиг в подходах искусственного интеллекта к решению сложных задач.
Технология, примером которой служат модели DeepSeek-R1 и серия o от OpenAI, использует так называемый «подход, ориентированный на рассуждение», в котором приоритет отдаётся тщательному анализу, а не быстрому сопоставлению шаблонов. DeepSeek-R1 построен на этой методологии, что делает его особенно подходящим для решения сложных задач в науке, программировании и математике с помощью продвинутого логического вывода и поиска решений. Такой акцент на «обдумывании перед ответом» особенно ценен для технических применений.
В отличие от традиционных ИИ-систем, новые модели рассуждения обучаются «думать дольше» перед тем, как дать ответ. Например, OpenAI o3 может разбивать сложные вопросы на логические шаги, выполнять промежуточные вычисления или обращения к инструментам, а затем выдавать обоснованные ответы. Будучи моделями рассуждения, они эффективно сами себя проверяют, что помогает избегать ошибок, характерных для стандартных моделей. Хотя на решение у них уходит от нескольких секунд до минут дольше, чем у обычных моделей без рассуждения, они, как правило, более надёжны в таких областях, как физика, наука и математика.
В OpenAI отмечают, что крупномасштабное обучение с подкреплением демонстрирует тот же тренд «больше вычислений = выше производительность», что и при обучении предыдущих моделей. Повторяя путь масштабирования — теперь уже в обучении с подкреплением — они увеличили вычисления и глубину рассуждений на порядок, что привело к явному росту качества: чем больше времени модель тратит на размышления, тем лучше результат.
Эти модели активно генерируют несколько вариантов решения во время инференса, оценивая каждый с помощью встроенных моделей-оценщиков, чтобы выбрать наиболее перспективный. Обучая оценщик на экспертно размеченных данных, разработчики обеспечивают способность моделей рассуждать над сложными многошаговыми задачами. Эта функция позволяет модели выступать судьёй собственного мышления, приближая большие языковые модели к способности «думать», а не просто отвечать.
Подход DeepSeek сочетает цепочку рассуждений (chain-of-thought) с обучением с подкреплением, при котором автономный агент учится выполнять задачу методом проб и ошибок без человеческих инструкций. Это ставит под сомнение предположение, что модели улучшат свои рассуждения только за счёт обучения на размеченных примерах правильного поведения. Как выразился один из исследователей: «Можем ли мы просто вознаграждать модель за правильность и позволить ей самой найти лучший способ думать?»
Последствия для реальных приложений огромны. Эти модели могут изменить подход ИИ к решению сложных задач — от научных исследований и инженерии до бизнес-стратегий и креативного поиска решений. Выделяя вычислительные ресурсы пропорционально сложности задачи — так же, как люди тратят больше времени на трудные проблемы, — эти системы обещают более надёжную работу на самых сложных интеллектуальных задачах, стоящих перед человечеством.