menu
close

Google, Gemma 3n'i Tanıttı: Mobil Cihazlar İçin Güçlü Çok Modlu Yapay Zeka

Google, yalnızca 2 GB bellekle çalışabilen, tüketici cihazları için tasarlanmış çığır açıcı çok modlu yapay zeka modeli Gemma 3n'i piyasaya sürdü. Model; ses, metin, görsel ve video girdilerini işleyebiliyor ve telefon, tablet, dizüstü bilgisayar gibi cihazlarda tamamen yerel olarak çalışabiliyor. Qualcomm, MediaTek ve Samsung gibi donanım üreticileriyle iş birliğiyle geliştirilen bu mobil öncelikli mimari, güçlü yapay zekanın bulut bağlantısı olmadan erişilebilir olmasında önemli bir adım niteliğinde.
Google, Gemma 3n'i Tanıttı: Mobil Cihazlar İçin Güçlü Çok Modlu Yapay Zeka

Google, mobil ve uç cihazlar için özel olarak tasarlanmış en yeni açık çok modlu yapay zeka modeli Gemma 3n'i resmen duyurdu. Bu lansman, gelişmiş yapay zeka yeteneklerinin doğrudan tüketici donanımına, bulut işlemeye ihtiyaç duymadan taşınmasında önemli bir dönüm noktası anlamına geliyor.

Gemma 3n, etkin parametrelerine göre E2B ve E4B olmak üzere iki boyutta sunuluyor. Ham parametre sayıları sırasıyla 5 milyar ve 8 milyar olsa da, mimari yenilikler sayesinde bu modeller, geleneksel 2 milyar ve 4 milyar parametreli modellere benzer bellek kullanımıyla çalışabiliyor; E2B için yalnızca 2 GB, E4B için ise 3 GB bellek yeterli oluyor. Bu verimlilik; MatFormer mimarisi ve Katman Bazlı Gömme (Per-Layer Embeddings) gibi çeşitli teknik yeniliklerle sağlanıyor.

Model, tasarımı gereği gerçek anlamda çok modlu olup; görsel, ses, video ve metin girdilerini doğal olarak destekliyor ve metin çıktıları üretebiliyor. Genişletilmiş ses yetenekleri sayesinde, yüksek kaliteli otomatik konuşma tanıma (transkripsiyon) ve konuşmadan metne çeviri mümkün hale geliyor. Ayrıca, model farklı modlardaki girdileri bir arada alabiliyor ve karmaşık çok modlu etkileşimleri anlayabiliyor.

Görsel işleme tarafında ise Gemma 3n, son derece verimli bir görüntü kodlayıcı olan MobileNet-V5-300M'i kullanıyor. Bu kodlayıcı, uç cihazlarda çok modlu görevler için en son performansı sunuyor. 256x256, 512x512 ve 768x768 piksel gibi farklı çözünürlükleri doğal olarak destekliyor, çok çeşitli görsel ve video anlama görevlerinde üstün başarı gösteriyor ve bir Google Pixel cihazında saniyede 60 kareye kadar işleyebiliyor.

E4B versiyonu, 10 milyar parametrenin altındaki modeller arasında bir ilk olarak LMArena skorunda 1300'ün üzerine çıkıyor. Gemma 3n, çok dillilikte de kalite artışı sağlıyor; metin için 140 dili, çok modlu anlama için ise 35 dili destekliyor. Ayrıca matematik, kodlama ve mantık yürütme yeteneklerinde de önemli gelişmeler sunuyor.

Gizlilik, modelin temel özelliklerinden biri olarak öne çıkıyor. Yerel çalışması sayesinde, kullanıcı gizliliğine saygı gösteren ve internet bağlantısı olmadan da güvenilir şekilde işleyen özellikler mümkün oluyor. Model, Qualcomm Technologies, MediaTek ve Samsung System LSI gibi mobil donanım liderleriyle yakın iş birliği içinde geliştirildi ve cihazlarda son derece hızlı, çok modlu yapay zekayı mümkün kılarak gerçekten kişisel ve gizli deneyimler sunuyor.

Modelin tam sürümü, Mayıs 2025'teki Google I/O'da yapılan ön gösterimin ardından geldi. Artık Hugging Face Transformers, llama.cpp, Google AI Edge, Ollama ve MLX gibi popüler framework'ler üzerinden kullanılabiliyor. Bu kapsamlı lansman, geliştiricilere çevrelerindeki dünyayı anlayıp yanıt verebilen yeni nesil akıllı, cihaz üzerinde çalışan uygulamalar geliştirme imkanı sunuyor.

Source:

Latest News