menu
close

Gemini Diffusion de Google revoluciona la generación de texto por IA

Google ha presentado Gemini Diffusion, un modelo pionero de generación de texto que convierte ruido aleatorio en texto coherente a velocidades hasta cinco veces superiores a los modelos anteriores. Este modelo experimental utiliza tecnología de difusión—similar a las técnicas de generación de imágenes—para producir hasta 2.000 tokens por segundo, igualando el rendimiento en programación de los modelos existentes. Además, Google ha mejorado su línea Gemini 2.5 con presupuestos de razonamiento que ofrecen a los desarrolladores un control preciso sobre las capacidades de razonamiento y el coste.
Gemini Diffusion de Google revoluciona la generación de texto por IA

Google DeepMind ha presentado Gemini Diffusion, un enfoque revolucionario para la generación de texto mediante inteligencia artificial que supone una ruptura significativa respecto a los modelos de lenguaje autorregresivos tradicionales.

A diferencia de los modelos convencionales, que generan texto secuencialmente, token a token, Gemini Diffusion emplea tecnología de difusión—utilizada hasta ahora principalmente en la generación de imágenes y vídeos—para refinar ruido aleatorio y transformarlo en texto coherente a través de un proceso iterativo. Según los investigadores de DeepMind, este novedoso método permite al modelo generar contenido a velocidades sorprendentes de hasta 2.000 tokens por segundo.

"En lugar de predecir texto directamente, aprenden a generar salidas refinando el ruido, paso a paso", explica Google en su anuncio. "Esto les permite iterar muy rápidamente sobre una solución y corregir errores durante el proceso de generación".

La demo experimental, actualmente disponible mediante lista de espera, demuestra cómo esta tecnología puede igualar el rendimiento en programación de los modelos actuales de Google, reduciendo drásticamente el tiempo de generación. En pruebas comparativas, Gemini Diffusion ofrece resultados similares a Gemini 2.0 Flash-Lite en tareas de programación como HumanEval y MBPP, mostrando resultados prácticamente idénticos.

Oriol Vinyals, vicepresidente de Investigación y responsable de Deep Learning en Google DeepMind, además de codirector del proyecto Gemini, describió el lanzamiento como un hito personal, señalando que la demo funcionaba tan rápido que tuvieron que ralentizar el vídeo para que fuera visible.

Paralelamente, Google ha mejorado su gama Gemini 2.5 con nuevas capacidades. La compañía ha lanzado Gemini 2.5 Flash con presupuestos de razonamiento, ofreciendo a los desarrolladores un control sin precedentes sobre el nivel de razonamiento que realiza la IA. Esta función permite a los usuarios equilibrar calidad, latencia y coste estableciendo un límite de tokens (hasta 24.576 tokens) para el proceso de razonamiento del modelo.

Google también está ampliando los presupuestos de razonamiento a Gemini 2.5 Pro, cuya disponibilidad general llegará en las próximas semanas. Además, la empresa ha añadido soporte nativo para definiciones del Model Context Protocol (MCP) en el SDK de la API de Gemini, facilitando la integración con herramientas de código abierto y el desarrollo de aplicaciones agenticas.

Estos avances representan el esfuerzo de Google por hacer que la inteligencia artificial sea más eficiente, controlable y accesible para los desarrolladores, manteniendo al mismo tiempo altos estándares de rendimiento.

Source:

Latest News