ارتقت جوجل بتقنيات توليد الفيديو بالذكاء الاصطناعي إلى مستوى جديد مع إطلاق Veo 3، النموذج الثوري الذي يضيف إمكانيات الصوت إلى مقاطع الفيديو المُنشأة بالذكاء الاصطناعي لأول مرة.
تم الكشف عن Veo 3 خلال مؤتمر Google I/O 2025 في مايو، ويعد هذا النموذج تطوراً كبيراً مقارنة بالجيل السابق من مولدات الفيديو بالذكاء الاصطناعي، حيث يدمج الحوارات المتزامنة، والأصوات المحيطية، والموسيقى الخلفية مباشرة في المقاطع المُنتجة. وقال ديميس هاسابيس، الرئيس التنفيذي لـ Google DeepMind، أثناء الإعلان: "لأول مرة، نخرج من عصر الصمت في توليد الفيديو".
تتميز هذه التقنية بقدرتها على إنتاج مقاطع فيديو واقعية مع فيزياء دقيقة، وتزامن حركي للشفاه، وحركة طبيعية. يمكن للمستخدمين إنشاء مقاطع فيديو من خلال تقديم أوصاف نصية أو صور مرجعية، حيث يقوم الذكاء الاصطناعي بإضافة العناصر الصوتية المناسبة تلقائياً لتتناسب مع المحتوى البصري. وتضع هذه الإمكانيات Veo 3 في مكانة متقدمة مقارنة بمنافسين مثل Sora من OpenAI، الذي لا يوفر حالياً توليد الصوت بشكل أصلي.
إلى جانب Veo 3، قامت جوجل بتحديث نموذج Veo 2 الشهير بعدة ميزات قوية جديدة، منها فيديو مدعوم بالمرجع للحفاظ على ثبات الشخصيات والعناصر، وتحكم متقدم بالكاميرا لحركة سينمائية، وتوسيع المشاهد خارج حدود الإطار الأصلي (outpainting)، بالإضافة إلى إضافة وحذف العناصر بذكاء.
ولإبراز الإمكانيات الإبداعية لهذه الأدوات، قدمت جوجل منصة Flow الجديدة لصناعة الأفلام بالذكاء الاصطناعي، والتي تجمع بين نماذج Veo وImagen وGemini. وقد أبدع عدد من صناع الأفلام بالفعل أفلاماً قصيرة احترافية باستخدام هذه التقنية، من بينهم هنري دوبريز بقصته العاطفية في عالم الخيال العلمي "Kitsune"، وجوني لاو باستكشافه للهوية في "Dear Stranger".
يتوفر Veo 3 حالياً لمشتركي خطة AI Ultra من جوجل بقيمة 249.99 دولار شهرياً في الولايات المتحدة عبر تطبيق Gemini، وكذلك لمستخدمي المؤسسات عبر منصة Vertex AI من جوجل. وتحتوي التقنية على ميزة العلامة المائية SynthID للمساعدة في التعرف على المحتوى المُنتج بالذكاء الاصطناعي ومعالجة المخاوف المتعلقة بالتزييف العميق والمعلومات المضللة.