Google DeepMind ha presentado Gemini Diffusion, un enfoque revolucionario para la generación de texto con inteligencia artificial que representa un cambio significativo respecto a los modelos tradicionales autoregresivos de lenguaje.
A diferencia de los modelos convencionales que generan texto token por token de manera secuencial, Gemini Diffusion emplea tecnología de difusión—utilizada principalmente en la generación de imágenes y videos—para refinar ruido aleatorio hasta convertirlo en texto coherente mediante un proceso iterativo. Este novedoso enfoque permite al modelo generar contenido a velocidades sorprendentes de hasta 2,000 tokens por segundo, según los investigadores de DeepMind.
"En lugar de predecir el texto directamente, aprenden a generar resultados refinando el ruido, paso a paso", explica Google en su anuncio. "Esto significa que pueden iterar sobre una solución muy rápidamente y corregir errores durante el proceso de generación".
La demostración experimental, actualmente disponible mediante lista de espera, muestra cómo esta tecnología puede igualar el desempeño en codificación de los modelos existentes de Google, al tiempo que reduce drásticamente el tiempo de generación. En pruebas de referencia, Gemini Diffusion ofrece resultados comparables a Gemini 2.0 Flash-Lite en tareas de programación como HumanEval y MBPP, mostrando resultados casi idénticos.
Oriol Vinyals, vicepresidente de Investigación y líder de Deep Learning en Google DeepMind, así como codirector del proyecto Gemini, describió el lanzamiento como un hito personal, señalando que la demostración funcionó tan rápido que tuvieron que ralentizar el video para que fuera visible.
En paralelo, Google ha mejorado su línea Gemini 2.5 con nuevas capacidades. La empresa lanzó Gemini 2.5 Flash con presupuestos de razonamiento, dando a los desarrolladores un control sin precedentes sobre la cantidad de razonamiento que realiza su IA. Esta función permite a los usuarios equilibrar calidad, latencia y costo estableciendo un límite de tokens (hasta 24,576 tokens) para el proceso de razonamiento del modelo.
Google también está extendiendo los presupuestos de razonamiento a Gemini 2.5 Pro, con disponibilidad general prevista para las próximas semanas. Además, la compañía ha añadido soporte nativo para definiciones del Model Context Protocol (MCP) en el SDK de la API de Gemini, facilitando la integración con herramientas de código abierto y la creación de aplicaciones agenticas.
Estos avances representan en conjunto el esfuerzo de Google por hacer que la IA sea más eficiente, controlable y accesible para los desarrolladores, manteniendo altos estándares de rendimiento.