أعلنت شركة جوجل عن نموذج للذكاء الاصطناعي التوليدي يسمى Veo، والذي يمكنه إنتاج مقاطع فيديو بجودة عالية استنادًا إلى الأوامر النصية التي يصدرها المستخدمون. جاء هذا الإعلان ضمن فعاليات مؤتمر المطورين Google I/O 2023.
وتدعي جوجل أن نموذج Veo يمتلك القدرة على فهم اللغة الطبيعية والمعاني البصرية بشكل متطور، لإنشاء أي فيديو يتخيله المستخدمون.
يمكن إنشاء مقاطع فيديو باستخدام نموذج Veo بمدة تتجاوز الدقيقة واحدة وبدقة تصل إلى 1080 بكسل، وهو يمتلك القدرة على فهم التقنيات السينمائية والبصرية، مثل مفهوم الفاصل الزمني، وذلك وفقًا لما ذكرته جوجل.
وتعاونت جوجل مع المخرج دونالد جلوفر واستوديوهات Gilga لعرض إمكانيات نموذج Veo في محاكاة فيزياء العالم الحقيقي، وذلك من خلال فيديو ترويجي نشرته الشركة على يوتيوب.
وسيكون نموذج Veo متاحًا اليوم ضمن أداة VideoFX من جوجل لبعض صناع المحتوى، وسيُضاف أيضًا إلى يوتيوب Shorts ومنتجات أخرى تابعة للشركة.
وأعلنت جوجل أيضًا عن نموذج Imagen 3، وهو نموذج محسن لتحويل النص إلى صورة. وتدعي الشركة أنه النموذج “الأعلى جودة” في هذا المجال، وأنه يوفر مستوى مذهلًا من التفاصيل، وصورًا واقعية تنبض بالحياة، مع تقليل عدد الأخطاء بشكل ملحوظ.
أوضحت جوجل أن نموذج Imagen 3 أصبح الآن أكثر قدرة على التعامل مع النصوص بشكل أفضل، وأنه أصبح أذكى في فهم التفاصيل ضمن الطلبات الطويلة.
ومن جهة أخرى، فإن المجتمع التقني يتشوق إلى تجربة النماذج الجديدة من جوجل، ومقارنة أدائها بأداء نماذج شركة OpenAI المنافسة التي تمتلك نموذج Sora لتحويل النص إلى فيديو، ونموذج DALL-E 3 لتحويل النص إلى صور.