Deși modelele AI text-la-video precum Sora de la OpenAI au făcut progrese impresionante în generarea de videoclipuri, acestea au întâmpinat dificultăți în crearea de videoclipuri metamorfice realiste – cele care prezintă transformări graduale, precum înflorirea florilor sau construcția clădirilor. Aceste procese sunt deosebit de provocatoare pentru AI, deoarece necesită o înțelegere profundă a fizicii reale și pot varia semnificativ ca aspect.
Noul model MagicTime abordează această limitare învățând direct cunoștințe fizice din videoclipuri time-lapse. Sub conducerea doctorandului Jinfa Huang și a profesorului Jiebo Luo de la Departamentul de Informatică al Universității Rochester, echipa internațională de cercetare și-a antrenat modelul pe un set de date de peste 2.000 de videoclipuri time-lapse atent subtitrate, pentru a surprinde nuanțele transformărilor fizice.
Versiunea open-source actuală generează clipuri de două secunde la o rezoluție de 512×512 pixeli, iar o arhitectură difuzie-transformer asociată extinde această capacitate la videoclipuri de zece secunde. MagicTime poate simula diverse procese metamorfice, inclusiv creșterea biologică, proiecte de construcție și chiar transformări culinare, precum coacerea pâinii.
„MagicTime este un pas către AI care poate simula mai bine proprietățile fizice, chimice, biologice sau sociale ale lumii din jurul nostru”, explică Huang. Cercetătorii prevăd aplicații științifice semnificative dincolo de divertisment, sugerând că „biologii ar putea folosi generarea video pentru a accelera explorarea preliminară a ideilor”, reducând totodată nevoia de experimente fizice.
Implicațiile tehnologiei se extind în mai multe domenii. În educație, ar putea crea vizualizări dinamice ale unor procese complexe, dificil de observat în timp real. Pentru creatorii de conținut și industria divertismentului, oferă noi instrumente pentru efecte speciale și narațiune. Oamenii de știință ar putea folosi MagicTime pentru a modela și prezice fenomene fizice, accelerând potențial cercetarea în domenii de la biologie la știința materialelor.
Pe măsură ce AI se integrează tot mai profund cu modelarea fizică, MagicTime exemplifică modul în care integrarea cunoștințelor specifice unui domeniu în modelele generative poate produce rezultate nu doar vizual impresionante, ci și relevante științific. Cercetarea a fost publicată în IEEE Transactions on Pattern Analysis and Machine Intelligence.