MIT'li bir araştırma ekibi, daha önce yalnızca kodlayıcı olarak kullanıldığı düşünülen sinir ağı bileşenlerinin, aslında kendi başlarına gelişmiş görüntü oluşturma ve manipülasyon görevleri gerçekleştirebileceğini ortaya koydu.
Vancouver'da düzenlenen Uluslararası Makine Öğrenimi Konferansı'nda (ICML 2025) sunulan araştırma, görsel bilgiyi ayrık token dizilerine sıkıştıran bir boyutlu (1D) tokenizer'ların, geleneksel görüntü üreticilerine olan ihtiyacı ortadan kaldıran kullanılmamış üretici yeteneklere sahip olduğunu gösteriyor.
MIT Bilgi ve Karar Sistemleri Laboratuvarı'ndan (LIDS) yüksek lisans öğrencisi Lukas Lao Beyer liderliğindeki ekip, bu sıkıştırılmış temsillerdeki bireysel token'ların manipüle edilmesinin, ortaya çıkan görüntülerde belirli ve öngörülebilir değişiklikler ürettiğini keşfetti. Lao Beyer, "Bu, daha önce hiç görülmemiş bir sonuçtu; çünkü kimse token'ların manipüle edilmesiyle görsel olarak tanımlanabilir değişiklikler gözlemlememişti," dedi.
Araştırmacılar, tek bir token'ın değiştirilmesinin görüntü kalitesini düşükten yükseğe dönüştürebildiğini, arka plan bulanıklığını ayarlayabildiğini, parlaklık seviyelerini değiştirebildiğini veya görüntüdeki nesnelerin pozunu bile değiştirebildiğini buldu. Bu keşif, doğrudan token manipülasyonu yoluyla verimli görüntü düzenlemesi için yeni olanaklar sunuyor.
Daha da önemlisi, MIT ekibi yalnızca bir 1D tokenizer ve bir decoder (detokenizer olarak da bilinir) ile, hazır bir sinir ağı olan CLIP tarafından yönlendirilen yeni bir görüntü üretim yaklaşımı gösterdi. Bu sistem, bir görüntü türünü başka bir türe dönüştürebiliyor — örneğin, bir kırmızı pandayı kaplana çevirmek — veya rastgele token değerlerinden başlayarak iteratif olarak optimize edilen tamamen yeni görüntüler üretebiliyor.
Bu yaklaşım, Münih Teknik Üniversitesi ve ByteDance araştırmacılarının 2024'te geliştirdiği, 256×256 piksellik görüntüleri yalnızca 32 token'a sıkıştırabilen (önceki tokenizer'ların tipik olarak kullandığı 256 token'a kıyasla) yöntemin üzerine inşa ediliyor. MIT'nin yeniliği, bu yüksek derecede sıkıştırılmış temsillerin yaratıcı uygulamalar için kullanılabilecek zengin anlamsal bilgiler içerdiğini gösteriyor.
Araştırma ekibinde MIT Bilgisayar Bilimi ve Yapay Zeka Laboratuvarı'ndan (CSAIL) Tianhong Li, Facebook AI Research'ten Xinlei Chen, MIT Profesörü Sertac Karaman ve MIT Doçent Dr. Kaiming He yer alıyor. Bulguları, bu on yılın sonunda milyar dolarlık bir endüstri olması beklenen yapay zekâ ile görüntü üretimi için daha hesaplamalı olarak verimli bir gelecek vadediyor.