Google DeepMind arbeitet daran, sein fortschrittlichstes multimodales Foundation-Modell, Gemini 2.5 Pro, in ein sogenanntes 'Weltmodell' zu transformieren – ein KI-System, das Aspekte der realen Welt verstehen und simulieren kann, indem es menschliche kognitive Prozesse nachahmt.
Wie auf der Google I/O 2025 angekündigt, verfolgt diese ambitionierte Initiative das Ziel, eine KI zu schaffen, die Pläne schmieden und neue Erfahrungen imaginieren kann, indem sie modelliert, wie die Welt funktioniert. Laut DeepMind-CEO Demis Hassabis stellt diese Fähigkeit einen grundlegenden Fortschritt in der künstlichen Intelligenz dar, der über einfache Klassifikation und Vorhersage hinausgeht.
„Deshalb arbeiten wir daran, unser bestes multimodales Foundation-Modell, Gemini 2.5 Pro, zu einem 'Weltmodell' weiterzuentwickeln, das Pläne machen und neue Erfahrungen imaginieren kann, indem es Aspekte der Welt versteht und simuliert – ganz wie das menschliche Gehirn“, erklärte Hassabis in einem aktuellen Blogbeitrag.
Google sieht bereits erste Anzeichen dieser Weltmodellierungs-Fähigkeiten in Geminis Fähigkeit, natürliche Umgebungen abzubilden und zu simulieren, intuitive Physik durch das Veo-Modell zu verstehen sowie Robotern mit Gemini Robotics das Greifen von Objekten und das Befolgen von Anweisungen beizubringen.
Das Unternehmen beschreibt diese Entwicklung als entscheidenden Schritt hin zu einem „universellen KI-Assistenten“ – einem intelligenten System, das Kontext versteht, planen und auf jedem Gerät handeln kann. Googles langfristige Vision ist es, die Gemini-App in einen Assistenten zu verwandeln, der alltägliche Aufgaben übernimmt, administrative Arbeiten erledigt und personalisierte Empfehlungen gibt.
Diese Weltmodell-Fähigkeit baut auf den bereits beeindruckenden Schlussfolgerungsfähigkeiten von Gemini 2.5 Pro auf. Das Modell führt derzeit Benchmarks für komplexe Mathematik-, Wissenschafts- und Programmieraufgaben an und belegt den ersten Platz auf den Bestenlisten von LMArena und WebDev Arena, die menschliche Präferenzen bei KI-Interaktionen messen.
Google plant, diese Weltmodell-Fähigkeiten mit Technologien aus Project Mariner und Project Astra zu kombinieren, die sich jeweils auf Multitasking und visuelles Verständnis konzentrieren. Die erweiterte Version von Gemini 2.5 Pro soll nach der aktuellen Vorschauphase ab Juni 2025 allgemein verfügbar sein.