Googles Gemini Diffusion revolutioniert die KI-Textgenerierung

Google hat Gemini Diffusion vorgestellt, ein bahnbrechendes Textgenerierungsmodell, das aus zufälligem Rauschen kohärenten Text erzeugt – und das bis zu fünfmal schneller als bisherige Modelle. Das experimentelle Modell nutzt Diffusionstechnologie, ähnlich wie bei der Bildgenerierung, und produziert bis zu 2.000 Tokens pro Sekunde, während es die Programmierleistung bestehender Modelle erreicht. Zudem hat Google seine Gemini-2.5-Reihe mit sogenannten Thinking Budgets erweitert, die Entwicklern eine präzise Steuerung der Denkfähigkeiten und Kosten ermöglichen.

Google DeepMind hat mit Gemini Diffusion einen revolutionären Ansatz zur KI-Textgenerierung vorgestellt, der einen deutlichen Bruch mit traditionellen autoregressiven Sprachmodellen darstellt.

Im Gegensatz zu herkömmlichen Modellen, die Text Token für Token sequenziell erzeugen, setzt Gemini Diffusion auf Diffusionstechnologie – bislang vor allem in der Bild- und Videogenerierung genutzt –, um aus zufälligem Rauschen durch einen iterativen Prozess kohärenten Text zu formen. Dieser neuartige Ansatz ermöglicht es dem Modell laut DeepMind-Forschern, Inhalte mit beeindruckenden Geschwindigkeiten von bis zu 2.000 Tokens pro Sekunde zu generieren.

„Anstatt Text direkt vorherzusagen, lernen sie, Ausgaben zu erzeugen, indem sie Schritt für Schritt Rauschen verfeinern“, erklärt Google in seiner Ankündigung. „Das bedeutet, sie können sehr schnell auf eine Lösung hinarbeiten und Fehler während des Generierungsprozesses korrigieren.“

Die derzeit über eine Warteliste verfügbare experimentelle Demo zeigt, wie diese Technologie die Programmierleistung bestehender Google-Modelle erreicht und gleichzeitig die Generierungszeit drastisch verkürzt. In Benchmarks erzielt Gemini Diffusion vergleichbare Ergebnisse wie Gemini 2.0 Flash-Lite bei Programmieraufgaben wie HumanEval und MBPP und liefert nahezu identische Resultate.

Oriol Vinyals, VP of Research und Deep-Learning-Leiter bei Google DeepMind sowie Co-Leiter des Gemini-Projekts, bezeichnete die Veröffentlichung als persönlichen Meilenstein und bemerkte, dass die Demo so schnell lief, dass das Video verlangsamt werden musste, um es anschaulich zu machen.

Parallel dazu hat Google seine Gemini-2.5-Reihe um neue Funktionen erweitert. Das Unternehmen hat Gemini 2.5 Flash mit Thinking Budgets eingeführt, wodurch Entwickler erstmals präzise steuern können, wie viel „Denkarbeit“ ihre KI leistet. Diese Funktion erlaubt es, Qualität, Latenz und Kosten auszubalancieren, indem ein Token-Limit (bis zu 24.576 Tokens) für den Denkprozess des Modells festgelegt wird.

Thinking Budgets werden in den nächsten Wochen auch für Gemini 2.5 Pro allgemein verfügbar sein. Darüber hinaus hat Google native SDK-Unterstützung für Model Context Protocol (MCP)-Definitionen in der Gemini API hinzugefügt, was die Integration mit Open-Source-Tools und den Aufbau agentenbasierter Anwendungen erleichtert.

Diese Fortschritte verdeutlichen Googles Bestreben, KI für Entwickler effizienter, steuerbarer und zugänglicher zu machen – bei gleichbleibend hohen Leistungsstandards.

Source:

Googles Gemini Diffusion revolutioniert die KI-Textgenerierung

Latest News

SEC verschärft Vorgehen gegen irreführende KI-Aussagen

Richter prüft KI-Auswirkungen im Streit um Google-Kartellrechtsmaßnahmen

Top KI-Innovatoren bei den Excellence Awards 2025 ausgezeichnet

WildFusion verleiht Robotern menschliche Sinne für die Navigation im Freien

Fingerspitzen-Feedback: Neue haptische Werkzeuge revolutionieren die Sicherheit von Industrierobotern

VentureBeat beleuchtet bedeutende KI-Fortschritte im Mai 2025

KI-Gehirne treiben Chinas humanoide Roboter-Revolution an

Roboter meistern soziale Fähigkeiten ohne menschliche Aufsicht

NYT schließt ersten KI-Inhaltsdeal mit Amazon für Alexa ab

Grammarly erhält 1 Milliarde US-Dollar, um sich vom Schreibwerkzeug zur KI-Plattform zu wandeln

Googles Gemini Diffusion revolutioniert die KI-Textgenerierung

Related Articles

Richter prüft KI-Auswirkungen im Streit um Google-Kartellrechtsmaßnahmen

VentureBeat beleuchtet bedeutende KI-Fortschritte im Mai 2025

DeepSeek aktualisiert R1-KI-Modell und fordert westliche Tech-Giganten heraus

Google Beam: Revolutionäre 3D-Videotelefonie startet 2025

Google stellt Gemini 2.5 Deep Think auf der I/O 2025 vor

Latest News

SEC verschärft Vorgehen gegen irreführende KI-Aussagen

Richter prüft KI-Auswirkungen im Streit um Google-Kartellrechtsmaßnahmen

Top KI-Innovatoren bei den Excellence Awards 2025 ausgezeichnet

WildFusion verleiht Robotern menschliche Sinne für die Navigation im Freien

Fingerspitzen-Feedback: Neue haptische Werkzeuge revolutionieren die Sicherheit von Industrierobotern

VentureBeat beleuchtet bedeutende KI-Fortschritte im Mai 2025

KI-Gehirne treiben Chinas humanoide Roboter-Revolution an

Roboter meistern soziale Fähigkeiten ohne menschliche Aufsicht

NYT schließt ersten KI-Inhaltsdeal mit Amazon für Alexa ab

Grammarly erhält 1 Milliarde US-Dollar, um sich vom Schreibwerkzeug zur KI-Plattform zu wandeln