Nakapag-develop ang mga mananaliksik ng bagong henerasyon ng AI models na kayang dynamic na iakma ang computational effort base sa antas ng kahirapan ng problema, na nagrerepresenta ng malaking pagbabago sa paraan ng pagharap ng artificial intelligence sa mga hamong gawain.
Ang teknolohiyang ito, na makikita sa mga modelong tulad ng DeepSeek-R1 at o-series ng OpenAI, ay gumagamit ng tinatawag ng mga developer na "reasoning-first approach" na inuuna ang masusing pagsusuri kaysa sa mabilisang pattern matching. Ang DeepSeek-R1 ay binuo gamit ang reasoning-first methodology, kaya't ito ay partikular na angkop sa pagharap ng masalimuot na gawain sa agham, pagko-code, at matematika sa pamamagitan ng advanced logical inference at problem-solving. Ang pagtutok na ito sa "pag-iisip bago sumagot" ay ginagawang mahalaga ang modelong ito para sa mga teknikal na aplikasyon.
Hindi tulad ng mga karaniwang AI system, ang mga bagong reasoning models na ito ay sinanay na "mag-isip nang mas matagal" bago sumagot. Halimbawa, ang o3 ng OpenAI ay kayang hatiin ang mahihirap na tanong sa mga lohikal na hakbang, magsagawa ng intermediate na kalkulasyon o tool calls, at pagkatapos ay magbigay ng matibay na sagot. Bilang mga reasoning models, epektibo nilang nasusuri ang sarili nilang mga sagot, na tumutulong maiwasan ang mga pagkakamaling madalas na nangyayari sa karaniwang mga modelo. Bagama't tumatagal ng ilang segundo hanggang minuto bago makabuo ng solusyon kumpara sa tipikal na non-reasoning models, mas mapagkakatiwalaan sila sa mga larangan tulad ng pisika, agham, at matematika.
Napansin ng OpenAI na ang malakihang reinforcement learning ay nagpapakita ng parehong trend na "mas maraming compute = mas mahusay na performance" na nakita sa naunang model training. Sa pagbalik sa scaling path—ngayon sa reinforcement learning—napataas nila ng isang antas pa ang training compute at inference-time reasoning, na may malinaw na pagbuti ng performance na nagpapatunay na patuloy na gumagaling ang mga modelo habang mas pinahihintulutan silang mag-isip.
Aktibong bumubuo ang mga modelong ito ng maraming posibleng solusyon habang nag-i-infer, sinusuri ang bawat isa gamit ang integrated evaluator models upang matukoy ang pinaka-promising na opsyon. Sa pamamagitan ng pagsasanay ng evaluator gamit ang expert-labeled data, tinitiyak ng mga developer na natututo ang mga modelo ng malalim na kakayahan sa pangangatwiran sa masalimuot at multi-step na problema. Ang tampok na ito ay nagbibigay-daan sa modelo na maging tagahatol ng sarili nitong pangangatwiran, na mas nagpapalapit sa mga large language models na tunay na "mag-isip" at hindi lang basta sumagot.
Pinagsasama ng DeepSeek ang chain-of-thought reasoning at reinforcement learning kung saan natututo ang isang autonomous agent na gawin ang isang gawain sa pamamagitan ng trial and error nang walang gabay ng tao. Ito ay nagpapatanong sa paniniwala na ang mga modelo ay gagaling lamang sa pangangatwiran sa pamamagitan ng pagsasanay gamit ang mga labeled na halimbawa ng tamang kilos. Gaya ng sinabi ng isang mananaliksik: "Puwede ba nating gantimpalaan lang ang modelo para sa tamang sagot at hayaang matuklasan nito ang pinakamahusay na paraan ng pag-iisip sa sarili nito?"
Malalim ang implikasyon nito sa tunay na mundo. Maaaring baguhin ng mga modelong ito ang paraan ng paghawak ng AI sa masalimuot na problema sa mga larangan mula sa siyentipikong pananaliksik at inhinyeriya hanggang sa business strategy at malikhaing problem-solving. Sa pamamagitan ng paglalaan ng computational resources ayon sa antas ng hirap ng gawain—katulad ng natural na ginagawa ng tao—nangangako ang mga sistemang ito ng mas mapagkakatiwalaang performance sa mga pinakamalalaking intelektuwal na hamon na kinakaharap ng sangkatauhan.