ارتقت جوجل بتقنيات توليد الفيديو بالذكاء الاصطناعي إلى مستوى جديد مع إطلاق Veo 3، النموذج الثوري الذي يضيف إمكانيات الصوت إلى مقاطع الفيديو المولدة بالذكاء الاصطناعي لأول مرة.
تم الكشف عن Veo 3 خلال مؤتمر Google I/O 2025 في مايو، ويعد هذا النموذج تطوراً كبيراً مقارنةً بمولدات الفيديو السابقة من خلال دمج الحوار المتزامن، والأصوات المحيطية، والموسيقى الخلفية مباشرة في المقاطع المنتجة. وقال ديميس هاسابيس، الرئيس التنفيذي لشركة Google DeepMind، خلال الإعلان: «لأول مرة، نخرج من العصر الصامت لتوليد الفيديو».
تتميز هذه التقنية بقدرتها على إنشاء مقاطع فيديو واقعية بدقة فيزيائية عالية، وتزامن حركي دقيق للشفاه، وحركة طبيعية. يمكن للمستخدمين إنشاء مقاطع فيديو من خلال تقديم أوصاف نصية أو صور مرجعية، حيث يقوم الذكاء الاصطناعي تلقائياً بإضافة العناصر الصوتية المناسبة التي تتماشى مع المحتوى البصري. وتمنح هذه الإمكانية Veo 3 ميزة تنافسية أمام منافسين مثل Sora من OpenAI، الذي لا يدعم حالياً توليد الصوت بشكل أصلي.
إلى جانب Veo 3، قامت جوجل بتحديث نموذج Veo 2 الشهير بعدة ميزات قوية جديدة. وتشمل هذه الميزات: فيديو مدعوم بالمراجع للحفاظ على ثبات الشخصيات والأشياء، وتحكمات متقدمة بالكاميرا للحركة السينمائية، وتوسيع الإطار (outpainting) لتوسيع حدود المشهد، بالإضافة إلى إمكانية إضافة أو إزالة العناصر بذكاء.
ولإبراز الإمكانيات الإبداعية لهذه الأدوات، قدمت جوجل Flow، منصة صناعة الأفلام بالذكاء الاصطناعي الجديدة التي تجمع بين نماذج Veo وImagen وGemini. وقد أنشأ بالفعل عدد من صناع الأفلام أفلاماً قصيرة احترافية باستخدام هذه التقنية، من بينهم هنري دوبريز بقصته العاطفية في الخيال العلمي «Kitsune»، وجوني لاو في استكشافه للهوية في «Dear Stranger».
يتوفر Veo 3 حالياً لمشتركي خطة AI Ultra الشهرية من جوجل بقيمة 249.99 دولار أمريكي عبر تطبيق Gemini، بالإضافة إلى مستخدمي المؤسسات من خلال منصة Vertex AI. وتشمل التقنية علامة مائية رقمية (SynthID) للمساعدة في التعرف على المحتوى المولّد بالذكاء الاصطناعي ومعالجة المخاوف المتعلقة بالتزييف العميق والمعلومات المضللة.