Дослідники розробили нове покоління моделей штучного інтелекту, які можуть динамічно регулювати свої обчислювальні зусилля залежно від складності завдання, що знаменує собою суттєву зміну підходу ШІ до вирішення складних задач.
Технологія, прикладом якої є моделі на кшталт DeepSeek-R1 та o-серії від OpenAI, використовує так званий "підхід спочатку до міркування", що надає перевагу ретельному аналізу над швидким розпізнаванням шаблонів. DeepSeek-R1 побудовано за цією методологією, що робить її особливо придатною для вирішення складних завдань у науці, програмуванні та математиці завдяки розвиненому логічному висновку та здатності до розв’язання проблем. Такий акцент на "мисленні перед відповіддю" особливо цінний для технічних застосувань.
На відміну від традиційних систем ШІ, нові моделі міркування навчаються "думати довше" перед тим, як відповісти. Наприклад, OpenAI o3 може розбивати складні питання на логічні кроки, виконувати проміжні обчислення чи виклики інструментів, а потім видавати обґрунтовані відповіді. Як моделі міркування, вони ефективно перевіряють власні факти, що допомагає уникати типових помилок, властивих стандартним моделям. Хоча для отримання рішень їм потрібно на кілька секунд чи навіть хвилин більше, ніж звичайним моделям, вони зазвичай є надійнішими в таких сферах, як фізика, наука та математика.
OpenAI відзначає, що масштабне навчання з підкріпленням демонструє ту ж тенденцію "більше обчислень = краща продуктивність", яку спостерігали під час попереднього навчання моделей. Пройшовши шлях масштабування ще раз — цього разу у навчанні з підкріпленням — вони збільшили обчислювальні ресурси для навчання та міркування під час виконання ще на порядок, і чіткі покращення продуктивності підтверджують, що моделі стають кращими, чим більше їм дають "думати".
Під час роботи ці моделі активно генерують кілька шляхів вирішення задачі, оцінюючи кожен за допомогою вбудованих моделей-оцінювачів, щоб визначити найперспективніший варіант. Навчаючи оцінювач на даних, розмічених експертами, розробники забезпечують здатність моделей до глибокого міркування над складними багатокроковими проблемами. Ця функція дозволяє моделі виступати суддею власного міркування, наближаючи великі мовні моделі до справжнього "мислення", а не просто реагування.
Підхід DeepSeek поєднує ланцюжки міркувань із навчанням з підкріпленням, у якому автономний агент навчається виконувати завдання методом спроб і помилок без людських інструкцій. Це ставить під сумнів припущення, що моделі покращуватимуть свої навички міркування лише шляхом навчання на розмічених прикладах правильної поведінки. Як зазначив один із дослідників: "Чи можемо ми просто винагороджувати модель за правильність і дозволити їй самостійно відкривати найкращий спосіб мислення?"
Наслідки для реальних застосувань є значними. Такі моделі можуть змінити спосіб, у який ШІ вирішує складні завдання у сферах від наукових досліджень і інженерії до бізнес-стратегії та креативного вирішення проблем. Виділяючи обчислювальні ресурси пропорційно складності завдання — подібно до того, як люди природно витрачають більше часу на важчі проблеми — ці системи обіцяють більш надійну роботу при вирішенні найскладніших інтелектуальних викликів людства.