Η Google έκανε ένα σημαντικό άλμα προς τα εμπρός στην ενίσχυση της οπτικής αντίληψης των βοηθών τεχνητής νοημοσύνης, ενσωματώνοντας τις δυνατότητες του Project Astra στο Gemini Live, όπως ανακοινώθηκε στο Google I/O 2025 στις 20 Μαΐου.
Το Project Astra, που παρουσιάστηκε για πρώτη φορά στο Google I/O 2024, αντιπροσωπεύει το όραμα της Google DeepMind για έναν «καθολικό βοηθό τεχνητής νοημοσύνης που μπορεί να είναι πραγματικά χρήσιμος στην καθημερινή ζωή». Ο απώτερος στόχος είναι η μετατροπή της εφαρμογής Gemini σε έναν καθολικό βοηθό τεχνητής νοημοσύνης που εκτελεί καθημερινές εργασίες, διαχειρίζεται γραφειοκρατικές διαδικασίες και προσφέρει εξατομικευμένες προτάσεις για να κάνει τους χρήστες πιο παραγωγικούς και να εμπλουτίσει τη ζωή τους. Αυτό ξεκινά με δυνατότητες που εξερευνήθηκαν πρώτα στο Project Astra, όπως η κατανόηση βίντεο, το διαμοιρασμό οθόνης και η μνήμη.
Η Google ανακοίνωσε ότι το Project Astra — η εμπειρία τεχνητής νοημοσύνης με χαμηλή καθυστέρηση και πολλαπλές μορφές δεδομένων — θα υποστηρίξει μια σειρά νέων εμπειριών στην Αναζήτηση, την εφαρμογή Gemini AI και προϊόντα τρίτων προγραμματιστών. Το πιο αξιοσημείωτο είναι ότι το Project Astra δίνει ισχύ στη νέα λειτουργία Search Live στην Αναζήτηση Google. Όταν οι χρήστες χρησιμοποιούν το AI Mode ή το Lens, μπορούν να πατήσουν το κουμπί «Live» για να κάνουν ερωτήσεις σχετικά με ό,τι βλέπουν μέσω της κάμερας του smartphone τους. Το Project Astra μεταδίδει ζωντανό βίντεο και ήχο σε ένα μοντέλο τεχνητής νοημοσύνης και απαντά με ελάχιστη ή καθόλου καθυστέρηση.
Στην εφαρμογή Gemini, η Google αναφέρει ότι οι δυνατότητες ζωντανού βίντεο και διαμοιρασμού οθόνης του Project Astra θα είναι διαθέσιμες σε όλους τους χρήστες. Ενώ το Project Astra ήδη ενισχύει τις συνομιλίες χαμηλής καθυστέρησης του Gemini Live, αυτή η οπτική είσοδος ήταν μέχρι πρότινος διαθέσιμη μόνο σε συνδρομητές. Οι χρήστες αγαπούν το Gemini Live, με συνομιλίες που διαρκούν κατά μέσο όρο πέντε φορές περισσότερο από τις αλληλεπιδράσεις μέσω κειμένου, επειδή προσφέρει νέους τρόπους υποστήριξης, είτε πρόκειται για επίλυση προβλημάτων με μια χαλασμένη συσκευή είτε για εξατομικευμένες αγοραστικές συμβουλές. Για αυτό, από σήμερα, η Google προσφέρει το Gemini Live με κάμερα και διαμοιρασμό οθόνης δωρεάν σε όλους τους χρήστες Android και iOS.
Οι πρακτικές εφαρμογές είναι εντυπωσιακές. Η Google παρουσίασε τις δυνατότητες του Project Astra δείχνοντας ένα βίντεο όπου το Gemini Live βοηθά σε καθημερινές δραστηριότητες, όπως η επισκευή ενός ποδηλάτου. Στο βίντεο, ο χρήστης ζητά από το Project Astra να βρει το εγχειρίδιο του ποδηλάτου που επισκευάζει. Η τεχνητή νοημοσύνη περιηγείται στο διαδίκτυο, εντοπίζει το έγγραφο και ρωτά τι θέλει να δει ο χρήστης στη συνέχεια. Ο χρήστης στη συνέχεια ζητά από το Project Astra να μετακινηθεί στο έγγραφο μέχρι να βρει την ενότητα για τα φρένα. Η οθόνη του Android τηλεφώνου δείχνει το Project Astra να εκτελεί ακριβώς αυτό και να εντοπίζει τις σχετικές πληροφορίες. Αυτή η συμπεριφορά πράκτορα υποδηλώνει ότι το Project Astra θα μπορεί να έχει πρόσβαση σε συγκεκριμένες πληροφορίες στο διαδίκτυο, ακόμη και μέσα σε έγγραφα.
Τον τελευταίο χρόνο, η Google ενσωματώνει αυτές τις δυνατότητες στο Gemini Live ώστε να τις δοκιμάσουν περισσότεροι χρήστες. Η εταιρεία συνεχίζει να βελτιώνει και να εξερευνά νέες καινοτομίες, όπως την αναβάθμιση της φωνητικής εξόδου για πιο φυσικό ήχο, τη βελτίωση της μνήμης και την προσθήκη ελέγχου υπολογιστή. Η Google συλλέγει τώρα σχόλια για αυτές τις δυνατότητες από αξιόπιστους δοκιμαστές και εργάζεται για να τις φέρει στο Gemini Live, σε νέες εμπειρίες στην Αναζήτηση, στο Live API για προγραμματιστές και σε νέες μορφές συσκευών όπως τα γυαλιά.
Αυτή η ενσωμάτωση αντιπροσωπεύει μια σημαντική πρόοδο στην ενίσχυση της αντίληψης των βοηθών τεχνητής νοημοσύνης για το περιβάλλον και τη χρησιμότητά τους σε καθημερινά σενάρια, επιτρέποντας στην τεχνολογία να κατανοεί καλύτερα το περιβάλλον των χρηστών και να παρέχει πιο σχετική υποστήριξη.