menu
close

Gemini Diffusion de Google revoluciona la generación de texto con IA

Google ha presentado Gemini Diffusion, un modelo innovador de generación de texto que convierte ruido aleatorio en texto coherente hasta cinco veces más rápido que los modelos anteriores. Este modelo experimental utiliza tecnología de difusión—similar a las técnicas de generación de imágenes—para producir hasta 2,000 tokens por segundo, igualando el desempeño en codificación de los modelos existentes. Además, Google ha mejorado su línea Gemini 2.5 con presupuestos de razonamiento que otorgan a los desarrolladores un control preciso sobre las capacidades de razonamiento y el costo.
Gemini Diffusion de Google revoluciona la generación de texto con IA

Google DeepMind ha presentado Gemini Diffusion, un enfoque revolucionario para la generación de texto con inteligencia artificial que representa un cambio significativo respecto a los modelos tradicionales autoregresivos de lenguaje.

A diferencia de los modelos convencionales que generan texto token por token de manera secuencial, Gemini Diffusion emplea tecnología de difusión—utilizada principalmente en la generación de imágenes y videos—para refinar ruido aleatorio hasta convertirlo en texto coherente mediante un proceso iterativo. Este novedoso enfoque permite al modelo generar contenido a velocidades sorprendentes de hasta 2,000 tokens por segundo, según los investigadores de DeepMind.

"En lugar de predecir el texto directamente, aprenden a generar resultados refinando el ruido, paso a paso", explica Google en su anuncio. "Esto significa que pueden iterar sobre una solución muy rápidamente y corregir errores durante el proceso de generación".

La demostración experimental, actualmente disponible mediante lista de espera, muestra cómo esta tecnología puede igualar el desempeño en codificación de los modelos existentes de Google, al tiempo que reduce drásticamente el tiempo de generación. En pruebas de referencia, Gemini Diffusion ofrece resultados comparables a Gemini 2.0 Flash-Lite en tareas de programación como HumanEval y MBPP, mostrando resultados casi idénticos.

Oriol Vinyals, vicepresidente de Investigación y líder de Deep Learning en Google DeepMind, así como codirector del proyecto Gemini, describió el lanzamiento como un hito personal, señalando que la demostración funcionó tan rápido que tuvieron que ralentizar el video para que fuera visible.

En paralelo, Google ha mejorado su línea Gemini 2.5 con nuevas capacidades. La empresa lanzó Gemini 2.5 Flash con presupuestos de razonamiento, dando a los desarrolladores un control sin precedentes sobre la cantidad de razonamiento que realiza su IA. Esta función permite a los usuarios equilibrar calidad, latencia y costo estableciendo un límite de tokens (hasta 24,576 tokens) para el proceso de razonamiento del modelo.

Google también está extendiendo los presupuestos de razonamiento a Gemini 2.5 Pro, con disponibilidad general prevista para las próximas semanas. Además, la compañía ha añadido soporte nativo para definiciones del Model Context Protocol (MCP) en el SDK de la API de Gemini, facilitando la integración con herramientas de código abierto y la creación de aplicaciones agenticas.

Estos avances representan en conjunto el esfuerzo de Google por hacer que la IA sea más eficiente, controlable y accesible para los desarrolladores, manteniendo altos estándares de rendimiento.

Source:

Latest News