menu
close

MIT Membongkar Kuasa Tersembunyi Penentu Token Rangkaian Neural

Penyelidik MIT telah menemui bahawa penentu token rangkaian neural mampu melakukan penjanaan dan penyuntingan imej tanpa memerlukan penjana tradisional, seperti yang diumumkan pada 22 Julai 2025. Penyelidikan terobosan ini, yang dibentangkan di ICML 2025, menunjukkan bagaimana manipulasi token individu dalam penentu token 1D boleh menghasilkan perubahan visual yang boleh dikenalpasti pada imej, membolehkan penyuntingan imej yang cekap dengan kos pengiraan yang jauh lebih rendah. Pendekatan ini menggunakan sistem penentu token-penghurai yang dipandu oleh CLIP untuk mencapai penyuntingan dan penjanaan berpandukan teks.
MIT Membongkar Kuasa Tersembunyi Penentu Token Rangkaian Neural

Sekumpulan penyelidik dari MIT telah mendedahkan bahawa komponen rangkaian neural yang sebelum ini dianggap hanya berfungsi sebagai pengekod sebenarnya mampu melaksanakan tugas penjanaan dan manipulasi imej yang canggih secara sendiri.

Penyelidikan yang dibentangkan di Persidangan Antarabangsa Pembelajaran Mesin (ICML 2025) di Vancouver ini menunjukkan bahawa penentu token satu dimensi (1D)—rangkaian neural yang memampatkan maklumat visual ke dalam jujukan token diskret—mempunyai keupayaan generatif yang belum diterokai, sekali gus menghapuskan keperluan untuk penjana imej tradisional.

Diketuai oleh pelajar siswazah Lukas Lao Beyer dari Makmal Sistem Maklumat dan Keputusan (LIDS) MIT, pasukan ini mendapati bahawa manipulasi token individu dalam representasi mampat ini menghasilkan perubahan khusus dan boleh diramal pada imej yang terhasil. "Ini adalah hasil yang belum pernah dilihat sebelum ini, kerana tiada siapa pernah memerhati perubahan visual yang boleh dikenalpasti melalui manipulasi token," jelas Lao Beyer.

Para penyelidik mendapati bahawa penggantian satu token sahaja boleh mengubah kualiti imej daripada resolusi rendah ke tinggi, melaraskan kekaburan latar belakang, menukar tahap kecerahan, atau bahkan mengubah posisi objek dalam imej. Penemuan ini membuka kemungkinan baharu untuk penyuntingan imej yang cekap melalui manipulasi token secara langsung.

Lebih penting lagi, pasukan MIT telah menunjukkan pendekatan baharu untuk penjanaan imej yang hanya memerlukan penentu token 1D dan penghurai (juga dikenali sebagai detokenizer), yang dipandu oleh rangkaian neural sedia ada bernama CLIP. Sistem ini mampu menukar satu jenis imej ke jenis lain—contohnya, menukar panda merah menjadi harimau—atau menjana imej baharu sepenuhnya daripada nilai token rawak yang dioptimumkan secara berulang.

Pendekatan ini dibina atas kejayaan pada tahun 2024 oleh penyelidik dari Universiti Teknikal Munich dan ByteDance, yang membangunkan kaedah untuk memampatkan imej 256×256 piksel kepada hanya 32 token, berbanding 256 token yang biasanya digunakan oleh penentu token terdahulu. Inovasi MIT ini membuktikan bahawa representasi yang sangat mampat ini mengandungi maklumat semantik yang kaya dan boleh dimanfaatkan untuk aplikasi kreatif.

Pasukan penyelidik ini turut disertai Tianhong Li dari Makmal Sains Komputer dan Kecerdasan Buatan MIT (CSAIL), Xinlei Chen dari Facebook AI Research, Profesor MIT Sertac Karaman, dan Profesor Madya MIT Kaiming He. Penemuan mereka mencadangkan masa depan yang lebih cekap dari segi pengiraan untuk penjanaan imej AI, yang dijangka menjadi industri bernilai berbilion dolar menjelang akhir dekad ini.

Source: Techxplore

Latest News