menu
close

Gemini Diffusion dari Google Merevolusi Generasi Teks AI

Google telah meluncurkan Gemini Diffusion, model generasi teks revolusioner yang mengubah noise acak menjadi teks koheren dengan kecepatan hingga lima kali lebih cepat dibandingkan model sebelumnya. Model eksperimental ini menggunakan teknologi difusi—serupa dengan teknik generasi gambar—untuk menghasilkan hingga 2.000 token per detik sambil menyamai performa pemrograman model-model yang sudah ada. Google juga meningkatkan lini Gemini 2.5 dengan 'thinking budgets' yang memberikan kontrol presisi kepada pengembang atas kemampuan penalaran dan biaya.
Gemini Diffusion dari Google Merevolusi Generasi Teks AI

Google DeepMind telah memperkenalkan Gemini Diffusion, pendekatan revolusioner untuk generasi teks AI yang menjadi lompatan besar dari model bahasa autoregresif tradisional.

Berbeda dengan model konvensional yang menghasilkan teks satu token demi satu secara berurutan, Gemini Diffusion memanfaatkan teknologi difusi—yang sebelumnya banyak digunakan dalam generasi gambar dan video—untuk menyaring noise acak menjadi teks yang koheren melalui proses iteratif. Pendekatan baru ini memungkinkan model menghasilkan konten dengan kecepatan luar biasa hingga 2.000 token per detik, menurut peneliti DeepMind.

"Alih-alih memprediksi teks secara langsung, mereka belajar menghasilkan output dengan menyaring noise, langkah demi langkah," jelas Google dalam pengumumannya. "Ini berarti mereka dapat mengiterasi solusi dengan sangat cepat dan melakukan koreksi kesalahan selama proses generasi."

Demo eksperimental yang saat ini tersedia melalui daftar tunggu menunjukkan bagaimana teknologi ini dapat menyamai performa pemrograman model-model Google yang sudah ada sambil memangkas waktu generasi secara drastis. Dalam pengujian, Gemini Diffusion tampil sebanding dengan Gemini 2.0 Flash-Lite pada tugas pemrograman seperti HumanEval dan MBPP, dengan hasil yang hampir identik.

Oriol Vinyals, VP of Research dan Deep Learning Lead di Google DeepMind sekaligus Co-Head proyek Gemini, menggambarkan peluncuran ini sebagai pencapaian pribadi, mencatat bahwa demo berjalan begitu cepat hingga mereka harus memperlambat video agar dapat ditonton.

Secara paralel, Google juga meningkatkan lini Gemini 2.5 dengan kemampuan baru. Perusahaan meluncurkan Gemini 2.5 Flash dengan 'thinking budgets', memberikan kontrol yang belum pernah ada sebelumnya kepada pengembang atas seberapa banyak penalaran yang dilakukan AI mereka. Fitur ini memungkinkan pengguna menyeimbangkan kualitas, latensi, dan biaya dengan menetapkan batas token (hingga 24.576 token) untuk proses penalaran model.

Google juga memperluas fitur 'thinking budgets' ke Gemini 2.5 Pro, dengan ketersediaan umum dalam beberapa minggu mendatang. Selain itu, perusahaan menambahkan dukungan SDK native untuk definisi Model Context Protocol (MCP) di Gemini API, sehingga integrasi dengan alat open-source dan pembangunan aplikasi agentik menjadi lebih mudah.

Kemajuan-kemajuan ini secara kolektif menunjukkan upaya Google untuk membuat AI lebih efisien, terkontrol, dan mudah diakses oleh pengembang tanpa mengorbankan standar performa tinggi.

Source:

Latest News