Ενώ τα μοντέλα τεχνητής νοημοσύνης που μετατρέπουν κείμενο σε βίντεο, όπως το Sora της OpenAI, έχουν σημειώσει εντυπωσιακή πρόοδο στη δημιουργία βίντεο, αντιμετωπίζουν δυσκολίες στην παραγωγή ρεαλιστικών μεταμορφικών βίντεο – δηλαδή βίντεο που απεικονίζουν σταδιακές μεταμορφώσεις όπως το άνθισμα λουλουδιών ή την κατασκευή κτιρίων. Αυτές οι διεργασίες είναι ιδιαίτερα απαιτητικές για την τεχνητή νοημοσύνη, καθώς απαιτούν βαθιά κατανόηση της πραγματικής φυσικής και μπορεί να διαφέρουν σημαντικά στην εμφάνισή τους.
Το νέο μοντέλο MagicTime αντιμετωπίζει αυτόν τον περιορισμό μαθαίνοντας φυσικές γνώσεις απευθείας από βίντεο time-lapse. Υπό την καθοδήγηση του υποψήφιου διδάκτορα Jinfa Huang και του καθηγητή Jiebo Luo από το Τμήμα Πληροφορικής του Πανεπιστημίου του Ρότσεστερ, η διεθνής ερευνητική ομάδα εκπαίδευσε το μοντέλο σε ένα υψηλής ποιότητας σύνολο δεδομένων με πάνω από 2.000 σχολιασμένα βίντεο time-lapse, ώστε να αποτυπώσει τις λεπτές αποχρώσεις των φυσικών μετασχηματισμών.
Η τρέχουσα έκδοση ανοιχτού κώδικα παράγει αποσπάσματα διάρκειας δύο δευτερολέπτων σε ανάλυση 512×512 pixels, ενώ μια συνοδευτική αρχιτεκτονική diffusion-transformer επεκτείνει τη διάρκεια στα δέκα δευτερόλεπτα. Το MagicTime μπορεί να προσομοιώσει διάφορες μεταμορφικές διεργασίες, όπως βιολογική ανάπτυξη, κατασκευαστικά έργα και ακόμη και μαγειρικές μεταμορφώσεις, όπως το ψήσιμο ψωμιού.
«Το MagicTime είναι ένα βήμα προς την τεχνητή νοημοσύνη που μπορεί να προσομοιώσει καλύτερα τις φυσικές, χημικές, βιολογικές ή κοινωνικές ιδιότητες του κόσμου γύρω μας», εξηγεί ο Huang. Οι ερευνητές οραματίζονται σημαντικές επιστημονικές εφαρμογές πέρα από τη διασκέδαση, προτείνοντας ότι «οι βιολόγοι θα μπορούσαν να χρησιμοποιήσουν τα γενετικά βίντεο για να επιταχύνουν την προκαταρκτική διερεύνηση ιδεών», μειώνοντας παράλληλα την ανάγκη για φυσικά πειράματα.
Οι επιπτώσεις της τεχνολογίας εκτείνονται σε πολλούς τομείς. Στην εκπαίδευση, θα μπορούσε να δημιουργήσει δυναμικές απεικονίσεις σύνθετων διεργασιών που είναι δύσκολο να παρατηρηθούν σε πραγματικό χρόνο. Για δημιουργούς περιεχομένου και τη βιομηχανία ψυχαγωγίας, προσφέρει νέα εργαλεία για ειδικά εφέ και αφήγηση. Οι επιστήμονες θα μπορούσαν να το χρησιμοποιήσουν για τη μοντελοποίηση και πρόβλεψη φυσικών φαινομένων, επιταχύνοντας ενδεχομένως την έρευνα σε τομείς από τη βιολογία έως την επιστήμη υλικών.
Καθώς η τεχνητή νοημοσύνη ενσωματώνεται όλο και πιο βαθιά στη φυσική μοντελοποίηση, το MagicTime αποτελεί παράδειγμα του πώς η ενσωμάτωση εξειδικευμένης γνώσης σε γενετικά μοντέλα μπορεί να παράγει αποτελέσματα που δεν είναι μόνο οπτικά εντυπωσιακά αλλά και επιστημονικά ουσιαστικά. Η έρευνα δημοσιεύτηκε στο IEEE Transactions on Pattern Analysis and Machine Intelligence.