A Google DeepMind apresentou o Gemini Diffusion, uma abordagem revolucionária à geração de texto por IA que representa uma mudança significativa face aos modelos tradicionais de linguagem autoregressivos.
Ao contrário dos modelos convencionais, que geram texto um token de cada vez e de forma sequencial, o Gemini Diffusion utiliza tecnologia de difusão—anteriormente usada sobretudo na geração de imagens e vídeo—para refinar ruído aleatório em texto coerente através de um processo iterativo. Esta abordagem inovadora permite ao modelo gerar conteúdo a velocidades impressionantes de até 2.000 tokens por segundo, segundo os investigadores da DeepMind.
"Em vez de prever texto diretamente, aprendem a gerar saídas refinando o ruído, passo a passo", explica a Google no seu anúncio. "Isto significa que podem iterar rapidamente sobre uma solução e corrigir erros durante o processo de geração."
A demonstração experimental, atualmente disponível mediante lista de espera, mostra como esta tecnologia consegue igualar o desempenho em programação dos modelos existentes da Google, reduzindo drasticamente o tempo de geração. Em benchmarks, o Gemini Diffusion apresenta resultados comparáveis ao Gemini 2.0 Flash-Lite em tarefas de programação como HumanEval e MBPP, com resultados praticamente idênticos.
Oriol Vinyals, Vice-Presidente de Investigação e Líder de Deep Learning na Google DeepMind, bem como Co-Responsável pelo projeto Gemini, descreveu o lançamento como um marco pessoal, referindo que a demo era tão rápida que foi necessário abrandar o vídeo para ser possível visualizá-lo.
Em paralelo, a Google melhorou a sua linha Gemini 2.5 com novas funcionalidades. A empresa lançou o Gemini 2.5 Flash com orçamentos de raciocínio, oferecendo aos programadores um controlo sem precedentes sobre a quantidade de raciocínio efetuada pela IA. Esta funcionalidade permite aos utilizadores equilibrar qualidade, latência e custo, definindo um limite de tokens (até 24.576 tokens) para o processo de raciocínio do modelo.
A Google está também a expandir os orçamentos de raciocínio para o Gemini 2.5 Pro, com disponibilidade geral prevista para as próximas semanas. Adicionalmente, a empresa adicionou suporte nativo de SDK para definições do Model Context Protocol (MCP) na API Gemini, facilitando a integração com ferramentas open-source e a criação de aplicações agenticas.
Estes avanços representam, em conjunto, o esforço da Google para tornar a IA mais eficiente, controlável e acessível para os programadores, mantendo elevados padrões de desempenho.