Η Google Παρουσιάζει το Gemma 3n: Ισχυρή Πολυτροπική Τεχνητή Νοημοσύνη για Κινητές Συσκευές

Η Google κυκλοφόρησε το Gemma 3n, ένα πρωτοποριακό πολυτροπικό μοντέλο τεχνητής νοημοσύνης σχεδιασμένο να λειτουργεί αποδοτικά σε καταναλωτικές συσκευές με μνήμη μόλις 2GB. Το μοντέλο μπορεί να επεξεργάζεται ήχο, κείμενο, εικόνες και βίντεο τοπικά σε τηλέφωνα, ταμπλέτες και φορητούς υπολογιστές. Αυτή η αρχιτεκτονική με προτεραιότητα στη φορητότητα, που αναπτύχθηκε σε συνεργασία με κατασκευαστές υλικού όπως οι Qualcomm, MediaTek και Samsung, αποτελεί σημαντική εξέλιξη στη διάθεση ισχυρής τεχνητής νοημοσύνης χωρίς ανάγκη σύνδεσης στο cloud.

Η Google ανακοίνωσε επίσημα το Gemma 3n, το νεότερο ανοικτό πολυτροπικό μοντέλο τεχνητής νοημοσύνης που έχει σχεδιαστεί ειδικά για κινητές και edge συσκευές. Αυτή η κυκλοφορία σηματοδοτεί ένα σημαντικό ορόσημο στη διάθεση προηγμένων δυνατοτήτων AI απευθείας σε καταναλωτικό υλικό, χωρίς να απαιτείται επεξεργασία στο cloud.

Το Gemma 3n διατίθεται σε δύο μεγέθη βάσει των αποτελεσματικών παραμέτρων: E2B και E4B. Ενώ ο ακατέργαστος αριθμός παραμέτρων τους είναι 5B και 8B αντίστοιχα, καινοτομίες στην αρχιτεκτονική επιτρέπουν τη λειτουργία τους με απαιτήσεις μνήμης συγκρίσιμες με παραδοσιακά μοντέλα 2B και 4B, λειτουργώντας με μόλις 2GB (E2B) και 3GB (E4B) μνήμης. Αυτή η αποδοτικότητα επιτυγχάνεται μέσω τεχνικών καινοτομιών όπως η αρχιτεκτονική MatFormer και τα Per-Layer Embeddings.

Το μοντέλο είναι εξ αρχής πολυτροπικό, υποστηρίζοντας εγγενώς είσοδο εικόνας, ήχου, βίντεο και κειμένου, ενώ παράγει έξοδο σε μορφή κειμένου. Οι διευρυμένες δυνατότητες ήχου επιτρέπουν αυτόματη αναγνώριση ομιλίας (μεταγραφή) υψηλής ποιότητας και μετάφραση από ομιλία σε κείμενο. Επιπλέον, το μοντέλο δέχεται εναλλασσόμενες εισόδους μεταξύ διαφορετικών μορφών, επιτρέποντας την κατανόηση σύνθετων πολυτροπικών αλληλεπιδράσεων.

Για την οπτική επεξεργασία, το Gemma 3n διαθέτει έναν εξαιρετικά αποδοτικό οπτικό κωδικοποιητή, τον MobileNet-V5-300M, που προσφέρει κορυφαίες επιδόσεις για πολυτροπικές εργασίες σε edge συσκευές. Ο κωδικοποιητής αυτός υποστηρίζει εγγενώς πολλαπλές αναλύσεις εισόδου (256x256, 512x512 και 768x768 pixels), διαπρέπει σε ευρύ φάσμα εργασιών κατανόησης εικόνας και βίντεο και μπορεί να επεξεργαστεί έως και 60 καρέ ανά δευτερόλεπτο σε ένα Google Pixel.

Η έκδοση E4B πετυχαίνει σκορ LMArena άνω του 1300, καθιστώντας το το πρώτο μοντέλο κάτω από 10 δισεκατομμύρια παραμέτρους που φτάνει αυτό το ορόσημο. Το Gemma 3n προσφέρει βελτιώσεις ποιότητας στη πολυγλωσσικότητα, υποστηρίζοντας 140 γλώσσες για κείμενο και πολυτροπική κατανόηση σε 35 γλώσσες, καθώς και ενισχυμένες δυνατότητες στα μαθηματικά, τον προγραμματισμό και τη λογική σκέψη.

Η ιδιωτικότητα αποτελεί βασικό χαρακτηριστικό, καθώς η τοπική εκτέλεση επιτρέπει λειτουργίες που σέβονται τα προσωπικά δεδομένα του χρήστη και λειτουργούν αξιόπιστα ακόμη και χωρίς σύνδεση στο διαδίκτυο. Το μοντέλο δημιουργήθηκε σε στενή συνεργασία με ηγέτες του hardware για κινητά, όπως οι Qualcomm Technologies, MediaTek και το τμήμα System LSI της Samsung, και έχει βελτιστοποιηθεί για αστραπιαία, πολυτροπική τεχνητή νοημοσύνη, προσφέροντας πραγματικά προσωπικές και ιδιωτικές εμπειρίες απευθείας στη συσκευή.

Η πλήρης κυκλοφορία ακολουθεί την προεπισκόπηση που παρουσιάστηκε στο Google I/O τον Μάιο του 2025, με το μοντέλο πλέον διαθέσιμο μέσω δημοφιλών πλαισίων όπως τα Hugging Face Transformers, llama.cpp, Google AI Edge, Ollama και MLX. Αυτή η συνολική διάθεση δίνει τη δυνατότητα στους προγραμματιστές να δημιουργήσουν μια νέα γενιά έξυπνων εφαρμογών στη συσκευή, που μπορούν να κατανοούν και να ανταποκρίνονται στον κόσμο γύρω τους.

Source:

Η Google Παρουσιάζει το Gemma 3n: Ισχυρή Πολυτροπική Τεχνητή Νοημοσύνη για Κινητές Συσκευές

Latest News

Το OpenTools.AI Λανσάρει το Daily AI Digest για Επαγγελματίες του Κλάδου

Τα Drones Τεχνητής Νοημοσύνης της Helsing Μεταμορφώνουν τη Στρατηγική Άμυνας της Ουκρανίας

Η Πρώην CTO της OpenAI Εξασφαλίζει Ρεκόρ Χρηματοδότησης $2 Δισ. για Νέα Startup Τεχνητής Νοημοσύνης

Η EraDrive του Stanford Εξασφαλίζει Συμφωνία $1 Εκατ. με τη NASA για Τεχνολογία Διαστημικής Τεχνητής Νοημοσύνης

Γίγαντες του Χόλιγουντ Αντιμετωπίζουν Εταιρεία Τεχνητής Νοημοσύνης σε Ιστορική Υπόθεση Πνευματικών Δικαιωμάτων

Η Επανάσταση της Τεχνητής Νοημοσύνης Μεταμορφώνει το Τοπίο των Ομοσπονδιακών Διαγωνισμών

Η Nvidia Εδραιώνει την Ηγεσία της στην Τεχνητή Νοημοσύνη με Ρεκόρ Αναπτυξιακής Πορείας

Διεπαφή Εγκεφάλου με Τεχνητή Νοημοσύνη Μετατρέπει τις Σκέψεις σε Λόγο

Η Προώθηση της Τεχνητής Νοημοσύνης στην Κίνα Κλείνει το Χάσμα με τις ΗΠΑ, Σύμφωνα με Έρευνα της RAND

Φωτονικά Κβαντικά Τσιπ Ενισχύουν την Απόδοση της Τεχνητής Νοημοσύνης Μειώνοντας Δραστικά την Κατανάλωση Ενέργειας

Η Google Παρουσιάζει το Gemma 3n: Ισχυρή Πολυτροπική Τεχνητή Νοημοσύνη για Κινητές Συσκευές

Related Articles

Το OpenTools.AI Λανσάρει το Daily AI Digest για Επαγγελματίες του Κλάδου

Η Προώθηση της Τεχνητής Νοημοσύνης στην Κίνα Κλείνει το Χάσμα με τις ΗΠΑ, Σύμφωνα με Έρευνα της RAND

Η Meta Εγκαινιάζει Επένδυση $65 Δισ. στην Τεχνητή Νοημοσύνη με Νέο Εργαστήριο Υπερνοημοσύνης

Η TomTom Προχωρά σε Μειώσεις Θέσεων Εργασίας Καθώς η Τεχνητή Νοημοσύνη Αναδιαμορφώνει το Μέλλον του Κολοσσού Πλοήγησης

Η Anthropic Αντιμετωπίζει τον Οικονομικό Αντίκτυπο της Τεχνητής Νοημοσύνης με Νέα Ερευνητική Πρωτοβουλία

Latest News

Το OpenTools.AI Λανσάρει το Daily AI Digest για Επαγγελματίες του Κλάδου

Τα Drones Τεχνητής Νοημοσύνης της Helsing Μεταμορφώνουν τη Στρατηγική Άμυνας της Ουκρανίας

Η Πρώην CTO της OpenAI Εξασφαλίζει Ρεκόρ Χρηματοδότησης $2 Δισ. για Νέα Startup Τεχνητής Νοημοσύνης

Η EraDrive του Stanford Εξασφαλίζει Συμφωνία $1 Εκατ. με τη NASA για Τεχνολογία Διαστημικής Τεχνητής Νοημοσύνης

Γίγαντες του Χόλιγουντ Αντιμετωπίζουν Εταιρεία Τεχνητής Νοημοσύνης σε Ιστορική Υπόθεση Πνευματικών Δικαιωμάτων

Η Επανάσταση της Τεχνητής Νοημοσύνης Μεταμορφώνει το Τοπίο των Ομοσπονδιακών Διαγωνισμών

Η Nvidia Εδραιώνει την Ηγεσία της στην Τεχνητή Νοημοσύνη με Ρεκόρ Αναπτυξιακής Πορείας

Διεπαφή Εγκεφάλου με Τεχνητή Νοημοσύνη Μετατρέπει τις Σκέψεις σε Λόγο

Η Προώθηση της Τεχνητής Νοημοσύνης στην Κίνα Κλείνει το Χάσμα με τις ΗΠΑ, Σύμφωνα με Έρευνα της RAND

Φωτονικά Κβαντικά Τσιπ Ενισχύουν την Απόδοση της Τεχνητής Νοημοσύνης Μειώνοντας Δραστικά την Κατανάλωση Ενέργειας