Naukowcy opracowali nową generację modeli AI, które potrafią dynamicznie dostosowywać nakład pracy obliczeniowej w zależności od złożoności problemu, co stanowi istotną zmianę w podejściu sztucznej inteligencji do trudnych zadań.
Technologia ta, reprezentowana przez modele takie jak DeepSeek-R1 i seria o OpenAI, wykorzystuje tzw. „podejście nastawione na rozumowanie”, które przedkłada dogłębną analizę nad szybkie dopasowywanie wzorców. DeepSeek-R1 został zbudowany w oparciu o tę metodologię, dzięki czemu szczególnie dobrze radzi sobie z rozwiązywaniem złożonych zadań z zakresu nauki, programowania i matematyki poprzez zaawansowane wnioskowanie logiczne i rozwiązywanie problemów. Skupienie się na „myśleniu przed udzieleniem odpowiedzi” czyni go szczególnie wartościowym w zastosowaniach technicznych.
W przeciwieństwie do konwencjonalnych systemów AI, nowe modele rozumujące są trenowane tak, by „myśleć dłużej” przed udzieleniem odpowiedzi. Na przykład OpenAI o3 potrafi rozłożyć trudne pytania na logiczne kroki, wykonać obliczenia pośrednie lub wywołania narzędzi, a następnie zaprezentować uzasadnione odpowiedzi. Jako modele rozumujące, skutecznie same sprawdzają poprawność swoich odpowiedzi, co pozwala unikać pułapek typowych dla standardowych modeli. Choć potrzebują od kilku sekund do kilku minut więcej na znalezienie rozwiązania niż typowe modele nierozumujące, są znacznie bardziej niezawodne w takich dziedzinach jak fizyka, nauka czy matematyka.
OpenAI zaobserwowało, że uczenie ze wzmocnieniem na dużą skalę wykazuje ten sam trend „więcej obliczeń = lepsza wydajność”, co wcześniejsze szkolenia modeli. Powtarzając ścieżkę skalowania — tym razem w uczeniu ze wzmocnieniem — udało się zwiększyć zarówno moc obliczeniową podczas treningu, jak i rozumowanie w czasie wnioskowania o kolejny rząd wielkości, a wyraźne wzrosty wydajności potwierdzają, że modele poprawiają się, im dłużej mogą „myśleć”.
Modele te aktywnie generują wiele ścieżek rozwiązań podczas wnioskowania, oceniając każdą z nich przy pomocy zintegrowanych modeli oceniających, by wybrać najbardziej obiecującą opcję. Dzięki trenowaniu oceniającego na danych oznaczonych przez ekspertów, twórcy zapewniają modelom silną zdolność rozumowania w złożonych, wieloetapowych problemach. Ta cecha pozwala modelowi pełnić rolę sędziego własnego rozumowania, przybliżając duże modele językowe do „myślenia”, a nie tylko odpowiadania.
Podejście DeepSeek łączy rozumowanie łańcuchowe z uczeniem ze wzmocnieniem, w którym autonomiczny agent uczy się wykonywać zadanie metodą prób i błędów, bez instrukcji od człowieka. Podważa to założenie, że modele będą poprawiać swoje zdolności rozumowania wyłącznie poprzez trening na oznaczonych przykładach poprawnych zachowań. Jak ujął to jeden z badaczy: „Czy możemy po prostu nagradzać model za poprawność i pozwolić mu samodzielnie odkryć najlepszy sposób myślenia?”
Konsekwencje dla zastosowań praktycznych są ogromne. Modele te mogą zrewolucjonizować sposób, w jaki AI radzi sobie ze złożonymi problemami w takich dziedzinach jak badania naukowe, inżynieria, strategia biznesowa czy kreatywne rozwiązywanie problemów. Przydzielając zasoby obliczeniowe proporcjonalnie do trudności zadania — podobnie jak ludzie naturalnie poświęcają więcej czasu na trudniejsze problemy — systemy te obiecują bardziej niezawodne wyniki w najtrudniejszych intelektualnych wyzwaniach, przed którymi stoi ludzkość.