Sekumpulan penyelidik dari MIT telah mendedahkan bahawa komponen rangkaian neural yang sebelum ini dianggap hanya berfungsi sebagai pengekod sebenarnya mampu melaksanakan tugas penjanaan dan manipulasi imej yang canggih secara sendiri.
Penyelidikan yang dibentangkan di Persidangan Antarabangsa Pembelajaran Mesin (ICML 2025) di Vancouver ini menunjukkan bahawa penentu token satu dimensi (1D)—rangkaian neural yang memampatkan maklumat visual ke dalam jujukan token diskret—mempunyai keupayaan generatif yang belum diterokai, sekali gus menghapuskan keperluan untuk penjana imej tradisional.
Diketuai oleh pelajar siswazah Lukas Lao Beyer dari Makmal Sistem Maklumat dan Keputusan (LIDS) MIT, pasukan ini mendapati bahawa manipulasi token individu dalam representasi mampat ini menghasilkan perubahan khusus dan boleh diramal pada imej yang terhasil. "Ini adalah hasil yang belum pernah dilihat sebelum ini, kerana tiada siapa pernah memerhati perubahan visual yang boleh dikenalpasti melalui manipulasi token," jelas Lao Beyer.
Para penyelidik mendapati bahawa penggantian satu token sahaja boleh mengubah kualiti imej daripada resolusi rendah ke tinggi, melaraskan kekaburan latar belakang, menukar tahap kecerahan, atau bahkan mengubah posisi objek dalam imej. Penemuan ini membuka kemungkinan baharu untuk penyuntingan imej yang cekap melalui manipulasi token secara langsung.
Lebih penting lagi, pasukan MIT telah menunjukkan pendekatan baharu untuk penjanaan imej yang hanya memerlukan penentu token 1D dan penghurai (juga dikenali sebagai detokenizer), yang dipandu oleh rangkaian neural sedia ada bernama CLIP. Sistem ini mampu menukar satu jenis imej ke jenis lain—contohnya, menukar panda merah menjadi harimau—atau menjana imej baharu sepenuhnya daripada nilai token rawak yang dioptimumkan secara berulang.
Pendekatan ini dibina atas kejayaan pada tahun 2024 oleh penyelidik dari Universiti Teknikal Munich dan ByteDance, yang membangunkan kaedah untuk memampatkan imej 256×256 piksel kepada hanya 32 token, berbanding 256 token yang biasanya digunakan oleh penentu token terdahulu. Inovasi MIT ini membuktikan bahawa representasi yang sangat mampat ini mengandungi maklumat semantik yang kaya dan boleh dimanfaatkan untuk aplikasi kreatif.
Pasukan penyelidik ini turut disertai Tianhong Li dari Makmal Sains Komputer dan Kecerdasan Buatan MIT (CSAIL), Xinlei Chen dari Facebook AI Research, Profesor MIT Sertac Karaman, dan Profesor Madya MIT Kaiming He. Penemuan mereka mencadangkan masa depan yang lebih cekap dari segi pengiraan untuk penjanaan imej AI, yang dijangka menjadi industri bernilai berbilion dolar menjelang akhir dekad ini.