Google DeepMind a présenté Gemini Diffusion, une approche révolutionnaire de la génération de texte par intelligence artificielle qui marque une rupture significative avec les modèles de langage autorégressifs traditionnels.
Contrairement aux modèles classiques qui génèrent le texte séquentiellement, un token à la fois, Gemini Diffusion utilise la technologie de diffusion—jusqu'ici principalement exploitée pour la génération d'images et de vidéos—pour affiner du bruit aléatoire en texte cohérent via un processus itératif. Cette approche inédite permet au modèle de générer du contenu à des vitesses remarquables, pouvant atteindre 2 000 tokens par seconde, selon les chercheurs de DeepMind.
« Au lieu de prédire le texte directement, ils apprennent à générer des sorties en raffinant le bruit, étape par étape », explique Google dans son annonce. « Cela signifie qu'ils peuvent itérer très rapidement sur une solution et corriger les erreurs au cours du processus de génération. »
La démonstration expérimentale, actuellement accessible via une liste d'attente, montre comment cette technologie peut égaler les performances en programmation des modèles existants de Google tout en réduisant considérablement le temps de génération. Lors des benchmarks, Gemini Diffusion affiche des performances comparables à celles de Gemini 2.0 Flash-Lite sur des tâches de programmation telles que HumanEval et MBPP, avec des résultats quasiment identiques.
Oriol Vinyals, vice-président de la recherche et responsable du deep learning chez Google DeepMind, ainsi que co-responsable du projet Gemini, a qualifié cette sortie de jalon personnel, notant que la démonstration était si rapide qu'il a fallu ralentir la vidéo pour la rendre regardable.
En parallèle, Google a enrichi sa gamme Gemini 2.5 avec de nouvelles fonctionnalités. L'entreprise a lancé Gemini 2.5 Flash avec des budgets de réflexion, offrant aux développeurs un contrôle inédit sur le degré de raisonnement de leur IA. Cette fonctionnalité permet aux utilisateurs d'équilibrer qualité, latence et coût en définissant une limite de tokens (jusqu'à 24 576 tokens) pour le processus de raisonnement du modèle.
Google étend également les budgets de réflexion à Gemini 2.5 Pro, avec une disponibilité générale prévue dans les prochaines semaines. De plus, la société a ajouté un support natif des SDK pour les définitions du Model Context Protocol (MCP) dans l'API Gemini, facilitant ainsi l'intégration avec les outils open source et le développement d'applications agentiques.
Ces avancées traduisent la volonté de Google de rendre l'IA plus efficace, contrôlable et accessible pour les développeurs, tout en maintenant des standards de performance élevés.