OpenAI, GPT-4.1, GPT-4.1 mini ve GPT-4.1 nano olmak üzere, kodlama ve talimat takibinde üstün performans gösteren yeni bir model ailesi olan GPT-4.1'i tanıttı. 14 Nisan'da duyurulan bu yeni modeller yalnızca OpenAI'nin uygulama programlama arayüzü (API) üzerinden erişilebiliyor ve şirketin en gelişmiş modeli olan GPT-4o'nun tüm alanlarda önüne geçiyor.
Modeller, geliştirilmiş bağlam anlama yeteneğiyle 1 milyon tokene (yaklaşık 750.000 kelime) kadar destek sunuyor ve Haziran 2024'e kadar güncellenmiş bilgiyle geliyor. Gerçek dünya yazılım mühendisliği becerilerini ölçen SWE-bench Verified testinde, GPT-4.1 görevlerin %54,6'sını tamamlarken, GPT-4o ise %33,2'de kalıyor. Bu, modelin kod depolarını inceleme, görevleri tamamlama ve çalışan, testleri geçen kod üretme yeteneğindeki gelişmeleri yansıtıyor.
"GPT-4.1'i, geliştiricilerin en çok önem verdiği alanlarda gerçek dünya kullanımı için doğrudan geri bildirimlere dayanarak optimize ettik: ön yüz kodlaması, gereksiz düzenlemeleri azaltma, formatlara güvenilir şekilde uyma, yanıt yapısı ve sıralamasına sadık kalma, tutarlı araç kullanımı ve daha fazlası," diye açıkladı bir OpenAI sözcüsü. "Bu iyileştirmeler, geliştiricilerin gerçek dünya yazılım mühendisliği görevlerinde çok daha iyi ajanlar oluşturmasını sağlıyor."
Daha küçük varyantlar, farklı performans-maliyet dengeleri sunuyor. GPT-4.1 mini ve nano, bir miktar doğruluk kaybı karşılığında daha verimli ve hızlı çalışıyor; OpenAI, GPT-4.1 nano'nun şimdiye kadarki en hızlı ve en ucuz modeli olduğunu belirtiyor. Fiyatlandırma ise modele göre oldukça değişken: GPT-4.1, 1 milyon giriş tokenı için 2 dolar ve 1 milyon çıkış tokenı için 8 dolar; GPT-4.1 mini, 1 milyon giriş tokenı için 0,40 dolar ve çıkış için 1,60 dolar; GPT-4.1 nano ise yalnızca 1 milyon giriş tokenı için 0,10 dolar ve çıkış için 0,40 dolar.
Kodlamanın ötesinde yapılan değerlendirmelerde, OpenAI GPT-4.1'i Video-MME ile test etti; bu test, bir modelin videolardaki içeriği anlama yeteneğini ölçüyor. GPT-4.1, "uzun, altyazısız" video kategorisinde %72 doğruluk oranına ulaşarak bu alanda zirveye yerleşti.
Bu lansman, OpenAI'nin kodlama alanındaki daha geniş vizyonuyla uyumlu. OpenAI CFO'su Sarah Friar, şirketin uçtan uca uygulama programlayabilen "ajan yazılım mühendisi" yaratma vizyonunu yakın zamanda paylaştı. Friar, "Sizin için gerçekten bir uygulama inşa edebilir — ve sadece inşa etmekle kalmaz, kendi kalite kontrolünü, hata testini ve dokümantasyonunu da yapar," dedi.
Yapay zeka kodlama modeli alanında rekabet giderek artıyor. Google'ın Gemini 2.5 Pro modeli şu anda SWE-bench Verified testinde %63,8 ile zirvede; Anthropic'in Claude 3.7 Sonnet modeli ise standart modda %62,3, genişletilmiş düşünme modunda ise %70,3'e kadar çıkabiliyor. Bu etkileyici test sonuçlarına rağmen, OpenAI en iyi modellerin bile uzmanları zorlamayacak görevlerde başarısız olabildiğini kabul ediyor. Pek çok çalışma, kod üreten modellerin güvenlik açıklarını ve hataları düzeltmekte başarısız olduğunu, hatta yeni açıklar ve hatalar üretebildiğini gösteriyor. GPT-4.1 de işlediği token miktarı arttıkça daha az güvenilir hale geliyor.