Teknoloji hisselerinde ocak ayında dalgalanmalara yol açan çığır açıcı R1 modeliyle adını duyuran Çinli yapay zekâ girişimi DeepSeek, amiral gemisi yapay zekâ sistemine önemli bir güncellemeyi sessizce sundu.
DeepSeek-R1-0528 olarak adlandırılan yeni sürüm, 28 Mayıs'ta şirketin WeChat grubunda yapılan kısa bir duyuruyla tanıtıldı. DeepSeek her ne kadar bunu 'küçük bir deneme güncellemesi' olarak tanımlasa da, ilk testler modelin birçok alanda kayda değer gelişmeler gösterdiğini ortaya koyuyor.
LiveCodeBench sıralamasına göre, güncellenen model kodlama yeteneklerinde Pass@1 puanı ile 73.1'e ulaşarak OpenAI'ın O3 ve O4-Mini modellerinin hemen arkasında dördüncü sıraya yerleşti. Bu, özellikle Batılı rakiplerine kıyasla çok daha az kaynakla geliştirilen açık kaynaklı bir model için büyük bir sıçrama anlamına geliyor.
Teknik özellikler, R1-0528'in selefiyle aynı Uzman Karışımı (Mixture-of-Experts, MoE) mimarisini koruduğunu gösteriyor. Toplamda yaklaşık 685 milyar parametreye sahip olan modelde, çıkarım sırasında yalnızca 37 milyar parametre aktif olarak kullanılıyor. Model artık 128K tokene kadar genişletilmiş bir bağlam penceresini destekliyor ve bu sayede çok daha büyük dokümanlar ve kod tabanları üzerinde çalışabiliyor.
Kullanıcı geri bildirimleri, akıl yürütme derinliği, yazı kalitesi ve problem çözme yeteneklerinde iyileşmeler olduğunu vurguluyor. Geliştiriciler, modelin artık karmaşık görevler için 30-60 dakikalık uzun akıl yürütme oturumları gerçekleştirebildiğini ve bunun Google'ın modellerine benzer bir performans sunduğunu belirtiyor. Güncelleme ayrıca, önceki sürümlerdeki metin üretimindeki bazı tuhaflıkları gidererek daha doğal ve iyi biçimlendirilmiş içerikler oluşturuyor.
DeepSeek'in sürdürdüğü yenilikçi yaklaşım, yapay zekâda ölçeklenmenin devasa bilişim gücü ve yatırımlar gerektirdiği algısına meydan okuyor. Şirketin maliyet etkin, açık kaynaklı modellerdeki başarısı, teknoloji devlerini de harekete geçirdi; OpenAI fiyat indirimi yaparken, Google ise indirimli erişim katmanları sundu. Bu arada, Alibaba ve Tencent gibi Çinli rakipler de DeepSeek'in yeteneklerini aştıklarını iddia ettikleri kendi modellerini piyasaya sürdü.
R1-0528 güncellemesi, MIT lisansı altında Hugging Face platformunda ticari kullanım ve değişikliklere açık şekilde sunuluyor. Sektör gözlemcileri, DeepSeek'in önümüzdeki aylarda daha kapsamlı R2 modelini piyasaya sürmesini ve yapay zekâ alanında yeni bir dalga yaratmasını bekliyor.