menu
close

MIT Membuka Potensi Tersembunyi Tokenizer Jaringan Saraf

Para peneliti MIT menemukan bahwa tokenizer jaringan saraf dapat melakukan pembuatan dan pengeditan gambar tanpa generator tradisional, seperti diumumkan pada 22 Juli 2025. Riset terobosan yang dipresentasikan di ICML 2025 ini menunjukkan bagaimana manipulasi token individual pada tokenizer 1D dapat menghasilkan perubahan visual yang dapat dikenali pada gambar, sehingga memungkinkan manipulasi gambar secara efisien dengan biaya komputasi yang jauh lebih rendah. Pendekatan ini menggunakan sistem tokenizer-decoder yang dipandu oleh CLIP untuk mencapai pengeditan dan pembuatan gambar berbasis teks.
MIT Membuka Potensi Tersembunyi Tokenizer Jaringan Saraf

Sebuah tim peneliti dari MIT mengungkapkan bahwa komponen jaringan saraf yang sebelumnya dianggap hanya berfungsi sebagai encoder ternyata mampu melakukan tugas pembuatan dan manipulasi gambar yang canggih secara mandiri.

Riset yang dipresentasikan pada International Conference on Machine Learning (ICML 2025) di Vancouver ini menunjukkan bahwa tokenizer satu dimensi (1D)—jaringan saraf yang mengompresi informasi visual menjadi urutan token diskret—memiliki kemampuan generatif yang belum dimanfaatkan dan dapat menghilangkan kebutuhan akan generator gambar tradisional.

Dipimpin oleh mahasiswa pascasarjana Lukas Lao Beyer dari Laboratory for Information and Decision Systems (LIDS) MIT, tim ini menemukan bahwa manipulasi token individual dalam representasi terkompresi tersebut menghasilkan perubahan spesifik dan dapat diprediksi pada gambar yang dihasilkan. "Ini adalah hasil yang belum pernah terlihat sebelumnya, karena belum ada yang mengamati perubahan visual yang dapat dikenali dari manipulasi token," jelas Lao Beyer.

Para peneliti menemukan bahwa mengganti satu token saja dapat mengubah kualitas gambar dari resolusi rendah ke tinggi, menyesuaikan tingkat keburaman latar belakang, mengubah tingkat kecerahan, atau bahkan mengubah pose objek dalam gambar. Temuan ini membuka kemungkinan baru untuk pengeditan gambar yang efisien melalui manipulasi token secara langsung.

Lebih jauh lagi, tim MIT mendemonstrasikan pendekatan baru dalam pembuatan gambar yang hanya membutuhkan tokenizer 1D dan decoder (juga disebut detokenizer), yang dipandu oleh jaringan saraf siap pakai bernama CLIP. Sistem ini dapat mengubah satu jenis gambar ke jenis lain—misalnya, mengubah panda merah menjadi harimau—atau menghasilkan gambar baru sepenuhnya dari nilai token acak yang dioptimalkan secara iteratif.

Pendekatan ini dibangun di atas terobosan tahun 2024 dari peneliti Technical University of Munich dan ByteDance, yang mengembangkan metode untuk mengompresi gambar 256×256 piksel menjadi hanya 32 token, dibandingkan dengan 256 token yang biasanya digunakan oleh tokenizer sebelumnya. Inovasi MIT ini menunjukkan bahwa representasi yang sangat terkompresi tersebut mengandung informasi semantik yang kaya dan dapat dimanfaatkan untuk aplikasi kreatif.

Tim riset ini juga melibatkan Tianhong Li dari Computer Science and Artificial Intelligence Laboratory (CSAIL) MIT, Xinlei Chen dari Facebook AI Research, Profesor MIT Sertac Karaman, dan Associate Professor MIT Kaiming He. Temuan mereka mengindikasikan masa depan yang lebih efisien secara komputasi untuk pembuatan gambar AI, yang diproyeksikan menjadi industri bernilai miliaran dolar pada akhir dekade ini.

Source: Techxplore

Latest News