menu
close

Gemini Diffusion da Google Revoluciona a Geração de Texto por IA

A Google apresentou o Gemini Diffusion, um modelo inovador de geração de texto que converte ruído aleatório em texto coerente até cinco vezes mais rápido do que os modelos anteriores. Este modelo experimental utiliza tecnologia de difusão—semelhante às técnicas de geração de imagens—para produzir até 2.000 tokens por segundo, igualando o desempenho em programação dos modelos existentes. A Google também melhorou a sua linha Gemini 2.5 com orçamentos de raciocínio, permitindo aos programadores um controlo preciso sobre as capacidades de raciocínio e o custo.
Gemini Diffusion da Google Revoluciona a Geração de Texto por IA

A Google DeepMind apresentou o Gemini Diffusion, uma abordagem revolucionária à geração de texto por IA que representa uma mudança significativa face aos modelos tradicionais de linguagem autoregressivos.

Ao contrário dos modelos convencionais, que geram texto um token de cada vez e de forma sequencial, o Gemini Diffusion utiliza tecnologia de difusão—anteriormente usada sobretudo na geração de imagens e vídeo—para refinar ruído aleatório em texto coerente através de um processo iterativo. Esta abordagem inovadora permite ao modelo gerar conteúdo a velocidades impressionantes de até 2.000 tokens por segundo, segundo os investigadores da DeepMind.

"Em vez de prever texto diretamente, aprendem a gerar saídas refinando o ruído, passo a passo", explica a Google no seu anúncio. "Isto significa que podem iterar rapidamente sobre uma solução e corrigir erros durante o processo de geração."

A demonstração experimental, atualmente disponível mediante lista de espera, mostra como esta tecnologia consegue igualar o desempenho em programação dos modelos existentes da Google, reduzindo drasticamente o tempo de geração. Em benchmarks, o Gemini Diffusion apresenta resultados comparáveis ao Gemini 2.0 Flash-Lite em tarefas de programação como HumanEval e MBPP, com resultados praticamente idênticos.

Oriol Vinyals, Vice-Presidente de Investigação e Líder de Deep Learning na Google DeepMind, bem como Co-Responsável pelo projeto Gemini, descreveu o lançamento como um marco pessoal, referindo que a demo era tão rápida que foi necessário abrandar o vídeo para ser possível visualizá-lo.

Em paralelo, a Google melhorou a sua linha Gemini 2.5 com novas funcionalidades. A empresa lançou o Gemini 2.5 Flash com orçamentos de raciocínio, oferecendo aos programadores um controlo sem precedentes sobre a quantidade de raciocínio efetuada pela IA. Esta funcionalidade permite aos utilizadores equilibrar qualidade, latência e custo, definindo um limite de tokens (até 24.576 tokens) para o processo de raciocínio do modelo.

A Google está também a expandir os orçamentos de raciocínio para o Gemini 2.5 Pro, com disponibilidade geral prevista para as próximas semanas. Adicionalmente, a empresa adicionou suporte nativo de SDK para definições do Model Context Protocol (MCP) na API Gemini, facilitando a integração com ferramentas open-source e a criação de aplicações agenticas.

Estes avanços representam, em conjunto, o esforço da Google para tornar a IA mais eficiente, controlável e acessível para os programadores, mantendo elevados padrões de desempenho.

Source:

Latest News