Η Google έκανε σημαντικά βήματα προόδου στις δυνατότητες δημιουργίας πολυμέσων με τεχνητή νοημοσύνη, παρουσιάζοντας τα Veo 3 και Imagen 4 στο ετήσιο συνέδριο προγραμματιστών I/O στις 20 Μαΐου 2025.
Το Veo 3, το πιο πρόσφατο μοντέλο δημιουργίας βίντεο της Google, αποτελεί ένα μεγάλο άλμα προς τα εμπρός, εισάγοντας για πρώτη φορά δυνατότητες δημιουργίας ήχου. Το μοντέλο μπορεί να δημιουργεί βίντεο με συγχρονισμένους ήχους περιβάλλοντος, όπως θόρυβο κυκλοφορίας ή τιτιβίσματα πουλιών, και ακόμη και να παράγει διαλόγους μεταξύ χαρακτήρων με ακριβή συγχρονισμό χειλιών. Το Veo 3 επιδεικνύει βελτιωμένη κατανόηση της φυσικής του πραγματικού κόσμου και των ανθρώπινων εκφράσεων, προσφέροντας πιο ρεαλιστικά και λεπτομερή αποτελέσματα βίντεο.
Παράλληλα με το Veo 3, η Google παρουσίασε το Imagen 4, το πιο προηγμένο μοντέλο δημιουργίας εικόνων μέχρι σήμερα. Το Imagen 4 διακρίνεται στην απόδοση λεπτομερειών όπως περίπλοκα υφάσματα, σταγόνες νερού και γούνα ζώων με εντυπωσιακή καθαρότητα. Το μοντέλο υποστηρίζει διάφορες αναλογίες διαστάσεων και μπορεί να δημιουργεί εικόνες με ανάλυση έως 2K, καθιστώντας τις κατάλληλες για εκτύπωση ή παρουσιάσεις. Η Google ανακοίνωσε επίσης ότι θα κυκλοφορήσει μια «γρήγορη παραλλαγή» του Imagen 4, η οποία θα είναι έως και 10 φορές ταχύτερη από τον προκάτοχό της, βελτιστοποιημένη για ταχύτατη δημιουργία πρωτοτύπων και δημιουργικές ροές εργασίας.
Αυτά τα ισχυρά μοντέλα τεχνητής νοημοσύνης αποτελούν τη βάση για το Flow, το νέο εργαλείο κινηματογραφικής δημιουργίας της Google με τεχνητή νοημοσύνη. Το Flow συνδυάζει τις δυνατότητες των Veo, Imagen και Gemini, βοηθώντας αφηγητές να δημιουργούν κινηματογραφικά κλιπ και σκηνές. Το εργαλείο προσφέρει λειτουργίες όπως Camera Controls για ακριβείς κινήσεις κάμερας, SceneBuilder για ομαλή επέκταση λήψεων και Asset Management για οργάνωση δημιουργικών στοιχείων. Το Flow επιτρέπει στους δημιουργούς να διατηρούν συνεπείς χαρακτήρες και σκηνές σε πολλά κλιπ, προσφέροντας μια πιο συνεκτική εμπειρία αφήγησης.
Το Veo 3 είναι διαθέσιμο αυτή τη στιγμή στους συνδρομητές του Google AI Ultra στις Ηνωμένες Πολιτείες, με τιμή 249,99 δολάρια τον μήνα, ενώ το Imagen 4 είναι προσβάσιμο μέσω των εφαρμογών Gemini, Whisk, Vertex AI και διαφόρων εφαρμογών του Google Workspace. Όλο το περιεχόμενο που παράγεται από αυτά τα μοντέλα περιλαμβάνει υδατογραφήματα SynthID για διασφάλιση διαφάνειας και καταπολέμηση της παραπληροφόρησης.
Αυτές οι εξελίξεις αντικατοπτρίζουν τη δέσμευση της Google να επεκτείνει τις δυνατότητες τεχνητής νοημοσύνης σε περισσότερους χρήστες, με την εταιρεία να ανακοινώνει επίσης ότι οι εφαρμογές Gemini έχουν πλέον πάνω από 400 εκατομμύρια ενεργούς χρήστες μηνιαίως, γεγονός που αποδεικνύει τη ραγδαία υιοθέτηση των τεχνολογιών τεχνητής νοημοσύνης της.