Google DeepMind telah memperkenalkan Gemini Diffusion, satu pendekatan revolusioner dalam penjanaan teks AI yang mewakili perubahan besar daripada model bahasa autoregresif tradisional.
Tidak seperti model konvensional yang menjana teks satu token demi satu secara berurutan, Gemini Diffusion menggunakan teknologi difusi—yang sebelum ini digunakan terutamanya dalam penjanaan imej dan video—untuk memperhalusi bunyi rawak menjadi teks yang koheren melalui proses berulang. Pendekatan baharu ini membolehkan model tersebut menjana kandungan pada kelajuan luar biasa sehingga 2,000 token sesaat, menurut penyelidik DeepMind.
"Daripada meramalkan teks secara langsung, mereka belajar untuk menghasilkan output dengan memperhalusi bunyi, langkah demi langkah," jelas Google dalam pengumumannya. "Ini bermakna mereka boleh mengulangi penyelesaian dengan sangat pantas dan membetulkan ralat semasa proses penjanaan."
Demo eksperimental yang kini tersedia melalui senarai menunggu menunjukkan bagaimana teknologi ini boleh menandingi prestasi pengekodan model sedia ada Google sambil mengurangkan masa penjanaan secara drastik. Dalam penanda aras, Gemini Diffusion menunjukkan prestasi setanding dengan Gemini 2.0 Flash-Lite untuk tugasan pengaturcaraan seperti HumanEval dan MBPP, dengan keputusan yang hampir sama.
Oriol Vinyals, Naib Presiden Penyelidikan dan Ketua Pembelajaran Mendalam di Google DeepMind serta Ketua Bersama projek Gemini, menyifatkan pelancaran ini sebagai satu pencapaian peribadi, sambil menyatakan bahawa demo tersebut berjalan begitu pantas sehingga mereka terpaksa memperlahankan video untuk menjadikannya boleh ditonton.
Secara selari, Google telah menambah baik barisan Gemini 2.5 dengan keupayaan baharu. Syarikat itu melancarkan Gemini 2.5 Flash dengan bajet pemikiran, memberikan pembangun kawalan yang belum pernah ada sebelum ini terhadap sejauh mana penaakulan yang dilakukan oleh AI mereka. Ciri ini membolehkan pengguna mengimbangi kualiti, kependaman, dan kos dengan menetapkan had token (sehingga 24,576 token) untuk proses penaakulan model.
Google juga akan memperluaskan bajet pemikiran kepada Gemini 2.5 Pro, dengan ketersediaan umum dijangka dalam beberapa minggu akan datang. Selain itu, syarikat turut menambah sokongan SDK asli untuk definisi Model Context Protocol (MCP) dalam Gemini API, memudahkan integrasi dengan alat sumber terbuka dan membina aplikasi ejen.
Kemajuan-kemajuan ini secara keseluruhannya mewakili usaha Google untuk menjadikan AI lebih cekap, boleh dikawal, dan mudah diakses oleh pembangun sambil mengekalkan piawaian prestasi yang tinggi.