menu
close

Η Google Παρουσιάζει το Gemma 3n: Ισχυρή Πολυτροπική Τεχνητή Νοημοσύνη για Κινητές Συσκευές

Η Google κυκλοφόρησε το Gemma 3n, ένα πρωτοποριακό πολυτροπικό μοντέλο τεχνητής νοημοσύνης σχεδιασμένο να λειτουργεί αποδοτικά σε καταναλωτικές συσκευές με μνήμη μόλις 2GB. Το μοντέλο μπορεί να επεξεργάζεται ήχο, κείμενο, εικόνες και βίντεο τοπικά σε τηλέφωνα, ταμπλέτες και φορητούς υπολογιστές. Αυτή η αρχιτεκτονική με προτεραιότητα στη φορητότητα, που αναπτύχθηκε σε συνεργασία με κατασκευαστές υλικού όπως οι Qualcomm, MediaTek και Samsung, αποτελεί σημαντική εξέλιξη στη διάθεση ισχυρής τεχνητής νοημοσύνης χωρίς ανάγκη σύνδεσης στο cloud.
Η Google Παρουσιάζει το Gemma 3n: Ισχυρή Πολυτροπική Τεχνητή Νοημοσύνη για Κινητές Συσκευές

Η Google ανακοίνωσε επίσημα το Gemma 3n, το νεότερο ανοικτό πολυτροπικό μοντέλο τεχνητής νοημοσύνης που έχει σχεδιαστεί ειδικά για κινητές και edge συσκευές. Αυτή η κυκλοφορία σηματοδοτεί ένα σημαντικό ορόσημο στη διάθεση προηγμένων δυνατοτήτων AI απευθείας σε καταναλωτικό υλικό, χωρίς να απαιτείται επεξεργασία στο cloud.

Το Gemma 3n διατίθεται σε δύο μεγέθη βάσει των αποτελεσματικών παραμέτρων: E2B και E4B. Ενώ ο ακατέργαστος αριθμός παραμέτρων τους είναι 5B και 8B αντίστοιχα, καινοτομίες στην αρχιτεκτονική επιτρέπουν τη λειτουργία τους με απαιτήσεις μνήμης συγκρίσιμες με παραδοσιακά μοντέλα 2B και 4B, λειτουργώντας με μόλις 2GB (E2B) και 3GB (E4B) μνήμης. Αυτή η αποδοτικότητα επιτυγχάνεται μέσω τεχνικών καινοτομιών όπως η αρχιτεκτονική MatFormer και τα Per-Layer Embeddings.

Το μοντέλο είναι εξ αρχής πολυτροπικό, υποστηρίζοντας εγγενώς είσοδο εικόνας, ήχου, βίντεο και κειμένου, ενώ παράγει έξοδο σε μορφή κειμένου. Οι διευρυμένες δυνατότητες ήχου επιτρέπουν αυτόματη αναγνώριση ομιλίας (μεταγραφή) υψηλής ποιότητας και μετάφραση από ομιλία σε κείμενο. Επιπλέον, το μοντέλο δέχεται εναλλασσόμενες εισόδους μεταξύ διαφορετικών μορφών, επιτρέποντας την κατανόηση σύνθετων πολυτροπικών αλληλεπιδράσεων.

Για την οπτική επεξεργασία, το Gemma 3n διαθέτει έναν εξαιρετικά αποδοτικό οπτικό κωδικοποιητή, τον MobileNet-V5-300M, που προσφέρει κορυφαίες επιδόσεις για πολυτροπικές εργασίες σε edge συσκευές. Ο κωδικοποιητής αυτός υποστηρίζει εγγενώς πολλαπλές αναλύσεις εισόδου (256x256, 512x512 και 768x768 pixels), διαπρέπει σε ευρύ φάσμα εργασιών κατανόησης εικόνας και βίντεο και μπορεί να επεξεργαστεί έως και 60 καρέ ανά δευτερόλεπτο σε ένα Google Pixel.

Η έκδοση E4B πετυχαίνει σκορ LMArena άνω του 1300, καθιστώντας το το πρώτο μοντέλο κάτω από 10 δισεκατομμύρια παραμέτρους που φτάνει αυτό το ορόσημο. Το Gemma 3n προσφέρει βελτιώσεις ποιότητας στη πολυγλωσσικότητα, υποστηρίζοντας 140 γλώσσες για κείμενο και πολυτροπική κατανόηση σε 35 γλώσσες, καθώς και ενισχυμένες δυνατότητες στα μαθηματικά, τον προγραμματισμό και τη λογική σκέψη.

Η ιδιωτικότητα αποτελεί βασικό χαρακτηριστικό, καθώς η τοπική εκτέλεση επιτρέπει λειτουργίες που σέβονται τα προσωπικά δεδομένα του χρήστη και λειτουργούν αξιόπιστα ακόμη και χωρίς σύνδεση στο διαδίκτυο. Το μοντέλο δημιουργήθηκε σε στενή συνεργασία με ηγέτες του hardware για κινητά, όπως οι Qualcomm Technologies, MediaTek και το τμήμα System LSI της Samsung, και έχει βελτιστοποιηθεί για αστραπιαία, πολυτροπική τεχνητή νοημοσύνη, προσφέροντας πραγματικά προσωπικές και ιδιωτικές εμπειρίες απευθείας στη συσκευή.

Η πλήρης κυκλοφορία ακολουθεί την προεπισκόπηση που παρουσιάστηκε στο Google I/O τον Μάιο του 2025, με το μοντέλο πλέον διαθέσιμο μέσω δημοφιλών πλαισίων όπως τα Hugging Face Transformers, llama.cpp, Google AI Edge, Ollama και MLX. Αυτή η συνολική διάθεση δίνει τη δυνατότητα στους προγραμματιστές να δημιουργήσουν μια νέα γενιά έξυπνων εφαρμογών στη συσκευή, που μπορούν να κατανοούν και να ανταποκρίνονται στον κόσμο γύρω τους.

Source:

Latest News