शोधकर्ताओं ने एआई मॉडलों की एक नई पीढ़ी विकसित की है जो समस्या की जटिलता के आधार पर अपने कंप्यूटेशनल प्रयास को गतिशील रूप से समायोजित कर सकती है। यह कृत्रिम बुद्धिमत्ता द्वारा चुनौतीपूर्ण कार्यों के दृष्टिकोण में एक बड़ा बदलाव दर्शाता है।
इस तकनीक का उदाहरण DeepSeek-R1 और OpenAI के o-सीरीज़ जैसे मॉडल हैं, जो डेवलपर्स द्वारा 'तर्क-प्रथम दृष्टिकोण' (reasoning-first approach) के रूप में वर्णित किए जाते हैं, जिसमें त्वरित पैटर्न मिलान के बजाय गहन विश्लेषण को प्राथमिकता दी जाती है। DeepSeek-R1 इसी तर्क-प्रथम पद्धति के साथ निर्मित है, जिससे यह विज्ञान, कोडिंग और गणित जैसे जटिल कार्यों को उन्नत तार्किक अनुमान और समस्या-समाधान के माध्यम से हल करने में विशेष रूप से सक्षम है। 'उत्तर देने से पहले सोचने' पर यह फोकस इसे तकनीकी अनुप्रयोगों के लिए विशेष रूप से मूल्यवान बनाता है।
पारंपरिक एआई प्रणालियों के विपरीत, ये नए तर्क मॉडल उत्तर देने से पहले 'अधिक समय तक सोचने' के लिए प्रशिक्षित किए जाते हैं। उदाहरण के लिए, OpenAI का o3 कठिन प्रश्नों को तार्किक चरणों में विभाजित कर सकता है, मध्यवर्ती गणनाएँ या टूल कॉल कर सकता है, और फिर ठोस उत्तर प्रस्तुत कर सकता है। तर्क मॉडल होने के कारण, ये स्वयं ही अपनी तथ्य-जांच कर लेते हैं, जिससे वे उन गलतियों से बच जाते हैं जो सामान्य मॉडलों को अक्सर फंसा देती हैं। हालांकि, ये समाधान तक पहुँचने में पारंपरिक गैर-तर्क मॉडलों की तुलना में कुछ सेकंड से लेकर मिनट अधिक लेते हैं, लेकिन भौतिकी, विज्ञान और गणित जैसे क्षेत्रों में ये अधिक विश्वसनीय साबित होते हैं।
OpenAI ने देखा है कि बड़े पैमाने पर रिइनफोर्समेंट लर्निंग (reinforcement learning) में भी वही 'अधिक कंप्यूट = बेहतर प्रदर्शन' प्रवृत्ति देखी जाती है, जैसी पहले के मॉडल प्रशिक्षण में थी। स्केलिंग पथ को फिर से अपनाकर—इस बार रिइनफोर्समेंट लर्निंग में—उन्होंने प्रशिक्षण कंप्यूट और इन्फरेंस-टाइम तर्क दोनों में एक अतिरिक्त क्रमिक वृद्धि हासिल की है, जिससे प्रदर्शन में स्पष्ट सुधार हुआ है और यह प्रमाणित होता है कि जितना अधिक समय मॉडल को सोचने के लिए दिया जाता है, उसका प्रदर्शन उतना ही बेहतर होता जाता है।
ये मॉडल इन्फरेंस के दौरान सक्रिय रूप से कई समाधान पथ उत्पन्न करते हैं और प्रत्येक का मूल्यांकन एकीकृत मूल्यांकनकर्ता मॉडलों की सहायता से करते हैं, ताकि सबसे संभावित विकल्प चुना जा सके। मूल्यांकनकर्ता को विशेषज्ञ-लेबल डेटा पर प्रशिक्षित करके, डेवलपर्स यह सुनिश्चित करते हैं कि मॉडल जटिल, बहु-चरणीय समस्याओं के माध्यम से तर्क करने की मजबूत क्षमता विकसित करें। यह विशेषता मॉडल को अपनी ही तर्क प्रक्रिया का न्यायाधीश बनने में सक्षम बनाती है, जिससे बड़े भाषा मॉडल केवल उत्तर देने के बजाय 'सोचने' के और करीब आ जाते हैं।
DeepSeek का दृष्टिकोण चेन-ऑफ-थॉट (chain-of-thought) तर्क को रिइनफोर्समेंट लर्निंग के साथ जोड़ता है, जिसमें एक स्वायत्त एजेंट बिना मानवीय निर्देशों के ट्रायल और एरर के माध्यम से कार्य करना सीखता है। यह धारणा को चुनौती देता है कि मॉडल केवल सही व्यवहार के लेबल किए गए उदाहरणों पर प्रशिक्षण लेकर ही अपनी तर्क क्षमता में सुधार करेंगे। जैसा कि एक शोधकर्ता ने कहा: 'क्या हम बस मॉडल को सही उत्तर के लिए इनाम दें और उसे खुद ही सोचने का सबसे अच्छा तरीका खोजने दें?'
वास्तविक दुनिया के अनुप्रयोगों के लिए इसके प्रभाव गहरे हैं। ये मॉडल वैज्ञानिक अनुसंधान और इंजीनियरिंग से लेकर व्यापार रणनीति और रचनात्मक समस्या-समाधान तक के क्षेत्रों में जटिल समस्याओं को संभालने के तरीके को बदल सकते हैं। कार्य की कठिनाई के अनुपात में कंप्यूटेशनल संसाधनों का आवंटन करके—ठीक वैसे ही जैसे इंसान कठिन समस्याओं पर स्वाभाविक रूप से अधिक समय लगाते हैं—ये प्रणालियाँ मानवता के सामने आने वाली सबसे चुनौतीपूर्ण बौद्धिक समस्याओं पर अधिक विश्वसनीय प्रदर्शन का वादा करती हैं।