menu
close

Google stellt Gemma 3n vor: Leistungsstarke multimodale KI für mobile Geräte

Google hat Gemma 3n veröffentlicht, ein bahnbrechendes multimodales KI-Modell, das effizient auf Endgeräten mit nur 2 GB Arbeitsspeicher läuft. Das Modell kann Audio-, Text-, Bild- und Videoeingaben verarbeiten und arbeitet lokal auf Smartphones, Tablets und Laptops. Diese mobile Architektur, entwickelt in Zusammenarbeit mit Hardware-Herstellern wie Qualcomm, MediaTek und Samsung, stellt einen bedeutenden Fortschritt dar, um leistungsfähige KI ohne Cloud-Anbindung zugänglich zu machen.
Google stellt Gemma 3n vor: Leistungsstarke multimodale KI für mobile Geräte

Google hat offiziell Gemma 3n vorgestellt, sein neuestes offenes multimodales KI-Modell, das speziell für mobile und Edge-Geräte entwickelt wurde. Diese Veröffentlichung markiert einen wichtigen Meilenstein, um fortschrittliche KI-Fähigkeiten direkt auf Endgeräten bereitzustellen, ohne auf Cloud-Processing angewiesen zu sein.

Gemma 3n ist in zwei Varianten erhältlich, die sich anhand effektiver Parameter unterscheiden: E2B und E4B. Obwohl die Rohanzahl der Parameter bei 5 Milliarden (E2B) bzw. 8 Milliarden (E4B) liegt, ermöglichen architektonische Innovationen einen Speicherbedarf, der mit klassischen 2B- bzw. 4B-Modellen vergleichbar ist – der Betrieb ist bereits mit nur 2 GB (E2B) bzw. 3 GB (E4B) Arbeitsspeicher möglich. Diese Effizienz wird durch mehrere technische Neuerungen erreicht, darunter die MatFormer-Architektur und Per-Layer Embeddings.

Das Modell ist von Grund auf multimodal konzipiert und unterstützt nativ Bild-, Audio-, Video- und Texteingaben, während es Textausgaben generiert. Die erweiterten Audiofähigkeiten ermöglichen hochwertige automatische Spracherkennung (Transkription) sowie Übersetzung von Sprache zu Text. Zudem akzeptiert das Modell verschachtelte Eingaben über verschiedene Modalitäten hinweg und kann so komplexe multimodale Interaktionen verstehen.

Für die visuelle Verarbeitung verfügt Gemma 3n über einen hocheffizienten Vision-Encoder, MobileNet-V5-300M, der auf Edge-Geräten eine erstklassige Leistung für multimodale Aufgaben liefert. Dieser Encoder unterstützt nativ mehrere Eingaberesolutionen (256x256, 512x512 und 768x768 Pixel), überzeugt bei einer Vielzahl von Bild- und Videoverarbeitungsaufgaben und kann auf einem Google Pixel bis zu 60 Bilder pro Sekunde verarbeiten.

Die E4B-Version erreicht einen LMArena-Score von über 1300 und ist damit das erste Modell unter 10 Milliarden Parametern, das diesen Wert erzielt. Gemma 3n bietet Qualitätsverbesserungen bei der Mehrsprachigkeit, unterstützt 140 Sprachen für Text und multimodales Verständnis in 35 Sprachen sowie verbesserte Fähigkeiten in Mathematik, Programmierung und logischem Denken.

Datenschutz ist ein zentrales Merkmal, da die lokale Ausführung Funktionen ermöglicht, die die Privatsphäre der Nutzer respektieren und auch ohne Internetverbindung zuverlässig arbeiten. Das Modell wurde in enger Zusammenarbeit mit führenden Hardware-Herstellern wie Qualcomm Technologies, MediaTek und Samsungs System LSI entwickelt und ist für blitzschnelle, multimodale KI optimiert – für wirklich persönliche und private Erlebnisse direkt auf dem Gerät.

Die vollständige Veröffentlichung folgt auf eine Vorschau bei der Google I/O im Mai 2025. Das Modell ist nun über gängige Frameworks wie Hugging Face Transformers, llama.cpp, Google AI Edge, Ollama und MLX verfügbar. Dieser umfassende Launch ermöglicht es Entwicklern, eine neue Generation intelligenter On-Device-Anwendungen zu entwickeln, die ihre Umgebung verstehen und darauf reagieren können.

Source:

Latest News