Cercetătorii au dezvoltat o nouă generație de modele AI care pot ajusta dinamic efortul computațional în funcție de complexitatea problemei, reprezentând o schimbare majoră în modul în care inteligența artificială abordează sarcinile dificile.
Tehnologia, exemplificată de modele precum DeepSeek-R1 și seria o de la OpenAI, utilizează ceea ce dezvoltatorii numesc o „abordare axată pe raționament”, care prioritizează analiza amănunțită în detrimentul potrivirii rapide de tipare. DeepSeek-R1 este construit pe această metodologie orientată spre raționament, fiind deosebit de potrivit pentru abordarea sarcinilor complexe din știință, programare și matematică prin inferență logică avansată și rezolvare de probleme. Această concentrare pe „gândirea înainte de a răspunde” îl face deosebit de valoros pentru aplicații tehnice.
Spre deosebire de sistemele AI convenționale, aceste noi modele de raționament sunt antrenate să „gândească mai mult timp” înainte de a răspunde. De exemplu, OpenAI o3 poate descompune întrebările dificile în pași logici, poate efectua calcule intermediare sau apeluri către instrumente, iar apoi oferă răspunsuri bine fundamentate. Fiind modele de raționament, acestea își verifică eficient propriile fapte, ceea ce ajută la evitarea capcanelor care, de obicei, pun în dificultate modelele standard. Deși au nevoie de câteva secunde până la minute suplimentare pentru a ajunge la soluții, comparativ cu modelele non-raționale obișnuite, tind să fie mai fiabile în domenii precum fizica, știința și matematica.
OpenAI a observat că învățarea prin întărire la scară largă prezintă aceeași tendință „mai multă putere de calcul = performanță mai bună” observată în etapele anterioare de antrenare a modelelor. Retrăgând calea de scalare — de această dată în învățarea prin întărire — au crescut cu încă un ordin de mărime atât resursele de antrenament, cât și raționamentul în timpul inferenței, cu câștiguri clare de performanță care validează faptul că modelele continuă să se îmbunătățească pe măsură ce li se permite să „gândească” mai mult.
Aceste modele generează activ mai multe căi de soluționare în timpul inferenței, evaluând fiecare cu ajutorul unor modele evaluatoare integrate pentru a determina cea mai promițătoare opțiune. Prin antrenarea evaluatorului pe date etichetate de experți, dezvoltatorii se asigură că modelele dezvoltă o capacitate solidă de a raționa prin probleme complexe, cu mai mulți pași. Această caracteristică permite modelului să acționeze ca un judecător al propriului raționament, apropiind modelele lingvistice mari de capacitatea de a „gândi”, nu doar de a răspunde.
Abordarea DeepSeek combină raționamentul de tip „chain-of-thought” cu învățarea prin întărire, în care un agent autonom învață să îndeplinească o sarcină prin încercare și eroare, fără instrucțiuni umane. Aceasta pune sub semnul întrebării presupunerea că modelele își vor îmbunătăți abilitățile de raționament doar prin antrenarea pe exemple etichetate de comportament corect. După cum a spus un cercetător: „Putem pur și simplu să recompensăm modelul pentru corectitudine și să-l lăsăm să descopere singur cea mai bună modalitate de a gândi?”
Implicațiile pentru aplicațiile din lumea reală sunt profunde. Aceste modele ar putea transforma modul în care AI abordează problemele complexe în domenii variate, de la cercetare științifică și inginerie, la strategie de afaceri și rezolvare creativă de probleme. Prin alocarea resurselor computaționale proporțional cu dificultatea sarcinii — similar modului în care oamenii petrec mai mult timp pe probleme dificile — aceste sisteme promit performanțe mai fiabile pentru cele mai provocatoare sarcini intelectuale cu care se confruntă omenirea.