menu
close

La diffusion Gemini de Google révolutionne la génération de texte par IA

Google a dévoilé Gemini Diffusion, un modèle révolutionnaire de génération de texte qui transforme du bruit aléatoire en texte cohérent, à des vitesses pouvant atteindre cinq fois celles des modèles précédents. Ce modèle expérimental utilise la technologie de diffusion—similaire aux techniques de génération d’images—pour produire jusqu’à 2 000 jetons par seconde tout en égalant la performance en codage des modèles existants. Google a également amélioré sa gamme Gemini 2.5 avec des budgets de réflexion qui offrent aux développeurs un contrôle précis sur les capacités de raisonnement et les coûts.
La diffusion Gemini de Google révolutionne la génération de texte par IA

Google DeepMind a présenté Gemini Diffusion, une approche révolutionnaire de la génération de texte par intelligence artificielle qui marque un changement majeur par rapport aux modèles de langage autorégressifs traditionnels.

Contrairement aux modèles conventionnels qui génèrent le texte un jeton à la fois, de façon séquentielle, Gemini Diffusion utilise la technologie de diffusion—jusqu’ici surtout employée pour la génération d’images et de vidéos—pour raffiner du bruit aléatoire en texte cohérent à travers un processus itératif. Selon les chercheurs de DeepMind, cette nouvelle approche permet au modèle de générer du contenu à des vitesses remarquables allant jusqu’à 2 000 jetons par seconde.

« Plutôt que de prédire le texte directement, ils apprennent à générer des sorties en raffinant le bruit, étape par étape », explique Google dans son annonce. « Cela leur permet d’itérer très rapidement sur une solution et de corriger les erreurs pendant le processus de génération. »

La démonstration expérimentale, actuellement accessible sur liste d’attente, montre comment cette technologie peut égaler la performance en codage des modèles existants de Google tout en réduisant considérablement le temps de génération. Lors des tests de référence, Gemini Diffusion affiche des performances comparables à celles de Gemini 2.0 Flash-Lite sur des tâches de programmation comme HumanEval et MBPP, avec des résultats presque identiques.

Oriol Vinyals, vice-président à la recherche et responsable de l’apprentissage profond chez Google DeepMind, ainsi que co-responsable du projet Gemini, a qualifié cette sortie d’étape personnelle importante, notant que la démonstration était si rapide qu’il a fallu ralentir la vidéo pour la rendre regardable.

En parallèle, Google a bonifié sa gamme Gemini 2.5 avec de nouvelles fonctionnalités. L’entreprise a lancé Gemini 2.5 Flash avec des budgets de réflexion, offrant aux développeurs un contrôle sans précédent sur la quantité de raisonnement effectuée par leur IA. Cette fonctionnalité permet aux utilisateurs de trouver un équilibre entre qualité, latence et coût en fixant une limite de jetons (jusqu’à 24 576 jetons) pour le processus de raisonnement du modèle.

Google étend également les budgets de réflexion à Gemini 2.5 Pro, avec une disponibilité générale prévue dans les prochaines semaines. De plus, l’entreprise a ajouté la prise en charge native des définitions du Model Context Protocol (MCP) dans le SDK de l’API Gemini, facilitant ainsi l’intégration avec les outils open source et la création d’applications agentiques.

Ces avancées témoignent de la volonté de Google de rendre l’IA plus efficace, contrôlable et accessible pour les développeurs, tout en maintenant des standards de performance élevés.

Source:

Latest News