Açık kaynak yapay zekâ alanında önemli bir gelişme olarak, ByteDance ve Tsinghua Üniversitesi’nden araştırmacılar, şeffaflık ve erişilebilirliği ön planda tutarak olağanüstü akıl yürütme yeteneklerine ulaşan devrim niteliğinde bir pekiştirmeli öğrenme sistemi olan DAPO’yu (Decoupled Clip and Dynamic sAmpling Policy Optimization) tanıttı.
DAPO, OpenAI ve DeepSeek gibi büyük sektör oyuncularının teknik ayrıntıları gizli tutması nedeniyle yapay zekâ topluluğunun en gelişmiş pekiştirmeli öğrenme sonuçlarını yeniden üretmekte yaşadığı zorluklara doğrudan bir yanıt niteliği taşıyor. Pekiştirmeli öğrenme, Büyük Dil Modelleri’ni (LLM) geliştirmede merkezi bir rol üstlenerek, onları karmaşık görevler için gerekli gelişmiş akıl yürütme yetenekleriyle donatıyor. Ancak araştırma topluluğu, sektörün önde gelen isimlerinin temel eğitim ayrıntılarını tam olarak açıklamaması nedeniyle en gelişmiş RL tekniklerini yeniden üretmekte ciddi zorluklarla karşılaşıyor. Bu şeffaflık eksikliği, bilimsel ilerlemeyi ve iş birliğini sınırlıyor.
Sistem, Qwen2.5-32B taban modeliyle zorlu AIME 2024 matematik yarışmasında 50 puan elde ediyor. Önceki çalışmaların aksine, DAPO büyük ölçekli LLM pekiştirmeli öğrenmesini başarılı kılan dört temel tekniği tanıtıyor. Ayrıca araştırmacılar, verl çerçevesi üzerine inşa edilen eğitim kodlarını ve özenle seçilip işlenmiş veri setini açık kaynak olarak paylaşıyor.
DAPO’yu özellikle etkileyici kılan unsur ise verimliliği. Sadece eğitim adımlarının %50’sini kullanarak, önceki en iyi model olan DeepSeek-R1-Zero-Qwen-32B’yi geride bırakıyor. Bu verimlilik, dört temel yenilikten kaynaklanıyor: İlk olarak “Clip-Higher”, modellerin keşif çeşitliliğini erken kaybetmesine yol açan entropi çöküşü sorununu ele alıyor. Politika güncellemelerinde kırpma oranının dikkatli yönetimiyle, model çıktılarında daha fazla çeşitlilik teşvik ediliyor. “Dinamik Örnekleme” ise eğitimdeki verimsizlikleri, örneklerin faydasına göre dinamik olarak filtrelenmesiyle gideriyor ve daha tutarlı bir gradyan sinyali sağlıyor. “Token Düzeyinde Politika Gradyan Kaybı”, kayıp hesaplamasını örnek düzeyinden token düzeyine taşıyarak, farklı uzunluktaki akıl yürütme dizilerine daha iyi uyum sağlıyor. Son olarak, “Aşırı Uzun Ödül Şekillendirme” ise aşırı uzun yanıtlar için kontrollü bir ceza getirerek, modelleri daha özlü ve verimli akıl yürütmeye yönlendiriyor.
DAPO’nun duyurusu, açık kaynak pekiştirmeli öğrenme alanında yaşanan atılımların arttığı bir döneme denk geliyor. Bir diğer önemli gelişme ise MiroMind-M1. Tamamen açık kaynaklı olan bu sistem; veri setlerinden modellere, eğitim kodlarından değerlendirme betiklerine kadar uzanan bir pipeline sunarak, Qwen-2.5 model ekosisteminde şeffaflık ve matematiksel akıl yürütmede yeni standartlar belirliyor. MiroMind-M1, sağlam Qwen-2.5 altyapısı üzerine inşa edilmiş olup, özellikle matematiksel akıl yürütme için geliştirilmiştir.
Bu gelişmelerin sektör üzerindeki etkisi büyük; pekiştirmeli öğrenme sektörünün 2025’te 122 milyar doların üzerinde bir büyüklüğe ulaşacağı öngörülüyor. Uygulama alanları arasında robotik, otonom araçlar, tedarik zinciri optimizasyonu, sağlık ve oyun sektörü yer alıyor; teknoloji olgunlaştıkça kullanım alanları da genişliyor.
Daha önce erişilemeyen yöntemleri tamamen şeffaf hâle getiren DAPO ve benzeri açık kaynak girişimler, ileri düzey yapay zekâ yeteneklerini demokratikleştiriyor; araştırmacıların, girişimlerin ve köklü şirketlerin bu yeniliklerin üzerine, tescilli sistemlerin kısıtlamalarına takılmadan inşa yapabilmesini sağlıyor.