خلال فعاليات مؤتمر Google I/O 2025، أعلنت شركة جوجل عن إطلاق الجيل الثالث من نموذجها المتطور لتوليد الفيديو بواسطة الذكاء الاصطناعي، والذي يحمل اسم Veo 3. هذا الإصدار يمثل نقلة نوعية، حيث يدمج ولأول مرة بين توليد الصورة والصوت في آنٍ واحد، ليشمل مؤثرات صوتية واقعية، أصواتًا خلفية، وحتى حوارات متزامنة مع المشاهد التي يتم إنشاؤها.
وفقًا لما ورد في المدونة الرسمية لجوجل، فإن Veo 3 يمثل قفزة هائلة مقارنة بالإصدار السابق Veo 2، حيث لا تقتصر التحسينات على جودة الفيديو فحسب، بل تمتد لتشمل توليد الصوت بشكل متكامل داخل المشاهد، مما يمنح المستخدم تجربة مرئية وسمعية أكثر واقعية.
ويتوفر Veo 3 حاليًا عبر تطبيق Gemini، ضمن باقة الاشتراك المميزة "AI Ultra" بسعر 250 دولارًا شهريًا، حيث يمكن استخدامه عبر الأوامر النصية أو من خلال تزويده بصور توضيحية لإنشاء محتوى مرئي صوتي متكامل.
وداعًا للفيديو الصامت: جوجل تدخل عصر الفيديو الديناميكي
في تصريح أدلى به ديميس هاسابيس, الرئيس التنفيذي لشركة DeepMind، الذراع البحثي في الذكاء الاصطناعي التابع لجوجل، قال:
"نحن نغادر اليوم عصر الفيديو الصامت. أصبح بإمكانك الآن إعطاء Veo 3 وصفًا دقيقًا للشخصيات والمشاهد، وتحديد نوع الحوار ونبرة الصوت المطلوبة ليتم توليدها بشكل تلقائي."
ويُعد إدماج الصوت في الفيديوهات المولدة خطوة فارقة تعزز من واقعية المشهد، خصوصًا مع تزايد المنافسة في مجال توليد الفيديو بالذكاء الاصطناعي، وبدء العديد من الشركات في طرح حلول مشابهة قد تبدو متقاربة في نتائجها البصرية.
كيف يعمل Veo 3 على دمج الصوت بالصورة؟
يتميز Veo 3 بقدرته على تحليل البكسلات داخل المشاهد وربطها تلقائيًا بالمؤثرات الصوتية المناسبة، في تزامن دقيق يجعل الناتج النهائي أكثر طبيعية. وتعتمد هذه الميزة على أبحاث سابقة أجرتها DeepMind في مجال توليد الصوت الاصطناعي، خاصة المؤثرات الصوتية ذات الطابع الواقعي.
ورغم أن جوجل لم تكشف رسميًا عن مصادر البيانات التي تم استخدامها لتدريب النموذج، إلا أن كثيرًا من المتخصصين يرجّحون أن YouTube كان أحد أهم هذه المصادر، خاصة بعد تلميحات سابقة من DeepMind حول إمكانية استخدام محتوى يوتيوب في تدريب النماذج.
حماية ضد التزييف: تقنية SynthID تدخل على الخط
لمواجهة خطر التزييف العميق (Deepfake)، دمجت جوجل في Veo 3 تقنية الحماية المتطورة SynthID، والتي تقوم بإدراج علامات رقمية غير مرئية داخل كل إطار فيديو يتم توليده. وتهدف هذه التقنية إلى ضمان إمكانية التحقق لاحقًا من أن المحتوى تم إنتاجه باستخدام الذكاء الاصطناعي، بما يعزز من الشفافية والموثوقية.
تحسينات جديدة على Veo 2: التجديد لا يزال مستمرًا
إلى جانب Veo 3، أعلنت جوجل عن مجموعة من التحديثات المهمة التي طالت النموذج السابق Veo 2، والتي تسمح الآن بإدخال صور خاصة بالشخصيات أو المشاهد أو العناصر المختلفة بهدف الحفاظ على اتساق الإخراج. كما أصبح بإمكان النموذج فهم حركات الكاميرا مثل الدوران، والتقريب، والإبعاد، بالإضافة إلى إمكانية تعديل محتوى الفيديو بإضافة أو حذف عناصر معينة، أو حتى توسيع الإطار المرئي.
ووفقًا لجوجل، ستُطرح هذه الميزات الجديدة في Veo 2 عبر منصة Vertex AI خلال الأسابيع القليلة القادمة، مما يُمكّن المطورين من اختبار قدرات النماذج داخل مشاريعهم الخاصة.
مع إطلاق Veo 3، تفتح جوجل بابًا جديدًا في عالم الذكاء الاصطناعي المرئي، حيث لم يعد توليد الفيديوهات مقتصرًا على الصورة فقط، بل بات يشمل الصوت بكافة أشكاله. وبفضل دمج تقنيات مثل SynthID وتحسين قدرة النموذج على تحليل المكونات البصرية والسمعية، قد يكون Veo 3 هو النموذج الذي يعيد تعريف مفهوم المحتوى المرئي في العصر الرقمي.