Google DeepMind hat mit Gemini Diffusion einen revolutionären Ansatz zur KI-Textgenerierung vorgestellt, der einen deutlichen Bruch mit traditionellen autoregressiven Sprachmodellen darstellt.
Im Gegensatz zu herkömmlichen Modellen, die Text Token für Token sequenziell erzeugen, setzt Gemini Diffusion auf Diffusionstechnologie – bislang vor allem in der Bild- und Videogenerierung genutzt –, um aus zufälligem Rauschen durch einen iterativen Prozess kohärenten Text zu formen. Dieser neuartige Ansatz ermöglicht es dem Modell laut DeepMind-Forschern, Inhalte mit beeindruckenden Geschwindigkeiten von bis zu 2.000 Tokens pro Sekunde zu generieren.
„Anstatt Text direkt vorherzusagen, lernen sie, Ausgaben zu erzeugen, indem sie Schritt für Schritt Rauschen verfeinern“, erklärt Google in seiner Ankündigung. „Das bedeutet, sie können sehr schnell auf eine Lösung hinarbeiten und Fehler während des Generierungsprozesses korrigieren.“
Die derzeit über eine Warteliste verfügbare experimentelle Demo zeigt, wie diese Technologie die Programmierleistung bestehender Google-Modelle erreicht und gleichzeitig die Generierungszeit drastisch verkürzt. In Benchmarks erzielt Gemini Diffusion vergleichbare Ergebnisse wie Gemini 2.0 Flash-Lite bei Programmieraufgaben wie HumanEval und MBPP und liefert nahezu identische Resultate.
Oriol Vinyals, VP of Research und Deep-Learning-Leiter bei Google DeepMind sowie Co-Leiter des Gemini-Projekts, bezeichnete die Veröffentlichung als persönlichen Meilenstein und bemerkte, dass die Demo so schnell lief, dass das Video verlangsamt werden musste, um es anschaulich zu machen.
Parallel dazu hat Google seine Gemini-2.5-Reihe um neue Funktionen erweitert. Das Unternehmen hat Gemini 2.5 Flash mit Thinking Budgets eingeführt, wodurch Entwickler erstmals präzise steuern können, wie viel „Denkarbeit“ ihre KI leistet. Diese Funktion erlaubt es, Qualität, Latenz und Kosten auszubalancieren, indem ein Token-Limit (bis zu 24.576 Tokens) für den Denkprozess des Modells festgelegt wird.
Thinking Budgets werden in den nächsten Wochen auch für Gemini 2.5 Pro allgemein verfügbar sein. Darüber hinaus hat Google native SDK-Unterstützung für Model Context Protocol (MCP)-Definitionen in der Gemini API hinzugefügt, was die Integration mit Open-Source-Tools und den Aufbau agentenbasierter Anwendungen erleichtert.
Diese Fortschritte verdeutlichen Googles Bestreben, KI für Entwickler effizienter, steuerbarer und zugänglicher zu machen – bei gleichbleibend hohen Leistungsstandards.