menu
close

Gemini Diffusion Google Merevolusikan Penjanaan Teks AI

Google telah memperkenalkan Gemini Diffusion, sebuah model penjanaan teks yang inovatif yang menukar bunyi rawak kepada teks yang koheren pada kelajuan sehingga lima kali ganda lebih pantas berbanding model-model sebelum ini. Model eksperimental ini menggunakan teknologi difusi—serupa dengan teknik penjanaan imej—untuk menghasilkan sehingga 2,000 token sesaat sambil mengekalkan prestasi pengekodan setanding dengan model sedia ada. Google turut menambah baik barisan Gemini 2.5 dengan bajet pemikiran yang membolehkan pembangun mengawal secara terperinci keupayaan penaakulan dan kos.
Gemini Diffusion Google Merevolusikan Penjanaan Teks AI

Google DeepMind telah memperkenalkan Gemini Diffusion, satu pendekatan revolusioner dalam penjanaan teks AI yang mewakili perubahan besar daripada model bahasa autoregresif tradisional.

Tidak seperti model konvensional yang menjana teks satu token demi satu secara berurutan, Gemini Diffusion menggunakan teknologi difusi—yang sebelum ini digunakan terutamanya dalam penjanaan imej dan video—untuk memperhalusi bunyi rawak menjadi teks yang koheren melalui proses berulang. Pendekatan baharu ini membolehkan model tersebut menjana kandungan pada kelajuan luar biasa sehingga 2,000 token sesaat, menurut penyelidik DeepMind.

"Daripada meramalkan teks secara langsung, mereka belajar untuk menghasilkan output dengan memperhalusi bunyi, langkah demi langkah," jelas Google dalam pengumumannya. "Ini bermakna mereka boleh mengulangi penyelesaian dengan sangat pantas dan membetulkan ralat semasa proses penjanaan."

Demo eksperimental yang kini tersedia melalui senarai menunggu menunjukkan bagaimana teknologi ini boleh menandingi prestasi pengekodan model sedia ada Google sambil mengurangkan masa penjanaan secara drastik. Dalam penanda aras, Gemini Diffusion menunjukkan prestasi setanding dengan Gemini 2.0 Flash-Lite untuk tugasan pengaturcaraan seperti HumanEval dan MBPP, dengan keputusan yang hampir sama.

Oriol Vinyals, Naib Presiden Penyelidikan dan Ketua Pembelajaran Mendalam di Google DeepMind serta Ketua Bersama projek Gemini, menyifatkan pelancaran ini sebagai satu pencapaian peribadi, sambil menyatakan bahawa demo tersebut berjalan begitu pantas sehingga mereka terpaksa memperlahankan video untuk menjadikannya boleh ditonton.

Secara selari, Google telah menambah baik barisan Gemini 2.5 dengan keupayaan baharu. Syarikat itu melancarkan Gemini 2.5 Flash dengan bajet pemikiran, memberikan pembangun kawalan yang belum pernah ada sebelum ini terhadap sejauh mana penaakulan yang dilakukan oleh AI mereka. Ciri ini membolehkan pengguna mengimbangi kualiti, kependaman, dan kos dengan menetapkan had token (sehingga 24,576 token) untuk proses penaakulan model.

Google juga akan memperluaskan bajet pemikiran kepada Gemini 2.5 Pro, dengan ketersediaan umum dijangka dalam beberapa minggu akan datang. Selain itu, syarikat turut menambah sokongan SDK asli untuk definisi Model Context Protocol (MCP) dalam Gemini API, memudahkan integrasi dengan alat sumber terbuka dan membina aplikasi ejen.

Kemajuan-kemajuan ini secara keseluruhannya mewakili usaha Google untuk menjadikan AI lebih cekap, boleh dikawal, dan mudah diakses oleh pembangun sambil mengekalkan piawaian prestasi yang tinggi.

Source:

Latest News