O Google DeepMind apresentou o Gemini Diffusion, uma abordagem revolucionária para geração de texto por IA que representa uma mudança significativa em relação aos tradicionais modelos de linguagem autorregressivos.
Diferentemente dos modelos convencionais, que geram texto um token por vez em sequência, o Gemini Diffusion utiliza tecnologia de difusão—até então empregada principalmente em geração de imagens e vídeos—para refinar ruído aleatório em texto coerente por meio de um processo iterativo. Segundo pesquisadores do DeepMind, essa abordagem inovadora permite ao modelo gerar conteúdo em velocidades impressionantes de até 2.000 tokens por segundo.
"Em vez de prever o texto diretamente, eles aprendem a gerar saídas refinando o ruído, passo a passo", explica o Google em seu anúncio. "Isso significa que podem iterar rapidamente sobre uma solução e corrigir erros durante o processo de geração."
A demonstração experimental, atualmente disponível por meio de lista de espera, mostra como essa tecnologia pode igualar o desempenho em programação dos modelos atuais do Google, ao mesmo tempo em que reduz drasticamente o tempo de geração. Em testes de benchmark, o Gemini Diffusion apresentou desempenho comparável ao Gemini 2.0 Flash-Lite em tarefas de programação como HumanEval e MBPP, com resultados praticamente idênticos.
Oriol Vinyals, vice-presidente de Pesquisa e líder de Deep Learning no Google DeepMind, além de co-chefe do projeto Gemini, descreveu o lançamento como um marco pessoal, destacando que a demonstração foi tão rápida que foi necessário desacelerar o vídeo para torná-lo assistível.
Paralelamente, o Google aprimorou sua linha Gemini 2.5 com novas funcionalidades. A empresa lançou o Gemini 2.5 Flash com orçamentos de raciocínio, oferecendo aos desenvolvedores controle sem precedentes sobre o quanto de raciocínio a IA realiza. Esse recurso permite equilibrar qualidade, latência e custo ao definir um limite de tokens (até 24.576 tokens) para o processo de raciocínio do modelo.
O Google também está expandindo os orçamentos de raciocínio para o Gemini 2.5 Pro, com disponibilidade geral prevista para as próximas semanas. Além disso, a empresa adicionou suporte nativo a SDK para definições do Model Context Protocol (MCP) na API do Gemini, facilitando a integração com ferramentas open source e o desenvolvimento de aplicações agenticas.
Esses avanços representam, em conjunto, o esforço do Google para tornar a IA mais eficiente, controlável e acessível para desenvolvedores, mantendo altos padrões de desempenho.