طور الباحثون جيلاً جديداً من نماذج الذكاء الاصطناعي يمكنه ضبط الجهد الحاسوبي الذي يبذله ديناميكياً بناءً على مدى تعقيد المشكلة، ما يمثل تحولاً كبيراً في طريقة تعامل الذكاء الاصطناعي مع المهام الصعبة.
تتجسد هذه التقنية في نماذج مثل DeepSeek-R1 وسلسلة o من OpenAI، حيث يعتمد المطورون ما يُسمى "نهج التفكير أولاً" الذي يعطي الأولوية للتحليل المتعمق بدلاً من الاكتفاء بمطابقة الأنماط بسرعة. تم بناء DeepSeek-R1 بهذه المنهجية التي تركز على التفكير، مما يجعله مناسباً بشكل خاص للتعامل مع المهام المعقدة في مجالات العلوم والبرمجة والرياضيات من خلال الاستدلال المنطقي المتقدم وحل المشكلات. هذا التركيز على "التفكير قبل الإجابة" يجعله ذا قيمة عالية في التطبيقات التقنية.
وعلى عكس أنظمة الذكاء الاصطناعي التقليدية، تم تدريب هذه النماذج الجديدة على "التفكير لفترة أطول" قبل الاستجابة. فعلى سبيل المثال، يستطيع نموذج o3 من OpenAI تقسيم الأسئلة الصعبة إلى خطوات منطقية، وإجراء حسابات أو استدعاء أدوات وسيطة، ثم تقديم إجابات مبنية على أسس قوية. وباعتبارها نماذج تفكير، فهي تقوم بفحص صحة نتائجها ذاتياً، مما يساعد على تجنب الأخطاء التي غالباً ما تقع فيها النماذج التقليدية. ورغم أنها تستغرق ثوانٍ إلى دقائق أطول للوصول إلى الحلول مقارنة بالنماذج غير المعتمدة على التفكير، إلا أنها غالباً ما تكون أكثر موثوقية في مجالات مثل الفيزياء والعلوم والرياضيات.
وقد لاحظت OpenAI أن التعلم المعزز على نطاق واسع يُظهر نفس الاتجاه "المزيد من الحوسبة = أداء أفضل" الذي شوهد في تدريب النماذج السابقة. ومن خلال إعادة تتبع مسار التوسع—هذه المرة في التعلم المعزز—تمكنوا من زيادة حجم الحوسبة المستخدمة في التدريب والتفكير أثناء الاستدلال بمقدار مرتبة كاملة، مع تحقيق مكاسب واضحة في الأداء تؤكد أن أداء النماذج يستمر في التحسن كلما أُتيح لها وقت تفكير أكبر.
تقوم هذه النماذج بتوليد عدة مسارات للحل أثناء الاستدلال، وتقييم كل منها بمساعدة نماذج تقييم مدمجة لتحديد الخيار الأكثر وعداً. ومن خلال تدريب المقيم على بيانات مصنفة من قبل خبراء، يضمن المطورون أن النماذج تطور قدرة قوية على التفكير في المشكلات المعقدة متعددة الخطوات. وتتيح هذه الميزة للنموذج أن يكون حكماً على تفكيره الخاص، مما يقرب النماذج اللغوية الكبيرة من القدرة على "التفكير" بدلاً من مجرد الاستجابة.
يجمع نهج DeepSeek بين التفكير المتسلسل والتعلم المعزز، حيث يتعلم الوكيل الذاتي أداء مهمة ما من خلال التجربة والخطأ دون تعليمات بشرية. ويطرح هذا النهج تساؤلات حول الافتراض القائل بأن النماذج ستحسن قدرتها على التفكير فقط من خلال التدريب على أمثلة مصنفة للسلوك الصحيح. وكما قال أحد الباحثين: "هل يمكننا فقط مكافأة النموذج على الصحة وتركه يكتشف أفضل طريقة للتفكير بنفسه؟"
وتحمل هذه التطورات آثاراً عميقة على التطبيقات الواقعية. فقد تغير هذه النماذج طريقة تعامل الذكاء الاصطناعي مع المشكلات المعقدة في مجالات تتراوح من البحث العلمي والهندسة إلى استراتيجيات الأعمال وحل المشكلات الإبداعية. ومن خلال تخصيص الموارد الحاسوبية بشكل يتناسب مع صعوبة المهمة—تماماً كما يقضي البشر وقتاً أطول في المشكلات الأصعب—تَعِد هذه الأنظمة بأداء أكثر موثوقية في مواجهة أصعب التحديات الفكرية التي تواجه البشرية.