menu
close

Gemini Diffusion di Google rivoluziona la generazione di testo AI

Google ha presentato Gemini Diffusion, un modello innovativo per la generazione di testo che trasforma il rumore casuale in testo coerente a velocità fino a cinque volte superiori rispetto ai modelli precedenti. Questo modello sperimentale utilizza la tecnologia di diffusione—simile alle tecniche di generazione di immagini—per produrre fino a 2.000 token al secondo, mantenendo prestazioni di codifica pari ai modelli esistenti. Google ha inoltre potenziato la linea Gemini 2.5 con 'thinking budgets', che offrono agli sviluppatori un controllo preciso sulle capacità di ragionamento e sui costi.
Gemini Diffusion di Google rivoluziona la generazione di testo AI

Google DeepMind ha introdotto Gemini Diffusion, un approccio rivoluzionario alla generazione di testo tramite intelligenza artificiale che segna un netto distacco dai tradizionali modelli linguistici autoregressivi.

A differenza dei modelli convenzionali che generano testo un token alla volta in sequenza, Gemini Diffusion impiega la tecnologia di diffusione—utilizzata finora principalmente nella generazione di immagini e video—per raffinare il rumore casuale in testo coerente attraverso un processo iterativo. Questo nuovo approccio consente al modello di generare contenuti a velocità sorprendenti, fino a 2.000 token al secondo, secondo quanto dichiarato dai ricercatori di DeepMind.

"Invece di prevedere direttamente il testo, imparano a generare output raffinando il rumore, passo dopo passo", spiega Google nel suo annuncio. "Ciò significa che possono iterare molto rapidamente su una soluzione e correggere errori durante il processo di generazione."

La demo sperimentale, attualmente disponibile tramite lista d'attesa, dimostra come questa tecnologia possa eguagliare le prestazioni di codifica dei modelli esistenti di Google, riducendo drasticamente i tempi di generazione. Nei benchmark, Gemini Diffusion si comporta in modo paragonabile a Gemini 2.0 Flash-Lite su compiti di programmazione come HumanEval e MBPP, mostrando risultati quasi identici.

Oriol Vinyals, VP of Research e responsabile Deep Learning di Google DeepMind nonché Co-Head del progetto Gemini, ha descritto il rilascio come una pietra miliare personale, sottolineando che la demo era così veloce da dover rallentare il video per renderlo visibile.

In parallelo, Google ha potenziato la linea Gemini 2.5 con nuove funzionalità. L'azienda ha lanciato Gemini 2.5 Flash con 'thinking budgets', offrendo agli sviluppatori un controllo senza precedenti su quanto ragionamento l'IA debba effettuare. Questa funzione consente agli utenti di bilanciare qualità, latenza e costi impostando un limite di token (fino a 24.576 token) per il processo di ragionamento del modello.

Google sta inoltre estendendo i 'thinking budgets' a Gemini 2.5 Pro, con disponibilità generale prevista nelle prossime settimane. Inoltre, l'azienda ha aggiunto il supporto nativo per le definizioni Model Context Protocol (MCP) nell'SDK Gemini API, facilitando l'integrazione con strumenti open-source e la creazione di applicazioni agentiche.

Questi progressi rappresentano collettivamente l'impegno di Google nel rendere l'IA più efficiente, controllabile e accessibile agli sviluppatori, mantenendo alti standard prestazionali.

Source:

Latest News