كشف الباحثون في شركة جوجل عن نظام جديد للذكاء الاصطناعي قادر على تحويل الصور الثابتة إلى فيديوهات متحركة. يُعرف هذا النظام باسم “فلوجر” VLOGGER.
بحسب ما جاء عن العلماء في جوجل، فإن النظام الذي طوروه قادر على إنشاء مقاطع فيديو تبدو حقيقية تصور أشخاصاً وهم يتكلمون ويتنقلون ويبدون إيماءات وتعابير جسدية انطلاقاً من صورة واحدة ثابتة.
تستند هذه الطريقة إلى نماذج متطورة من تعلم الآلة لخلق العديد من المشاهد الواقعية ودمجها لتشكيل مقطع فيديو.
تمهد هذه التكنولوجيا الطريق أمام العديد من الاستخدامات المستقبلية المحتملة، ومع ذلك تُثير في الآن ذاته قلقاً حيال احتمالات استغلالها بطرق غير لائقة للتدليس وخلق مقاطع فيديو تحاكي تقنيات الخداع العميق.
بناءً على المقال العلمي الذي أصدره فريق الباحثين في مجال الأبحاث لدى شركة جوجل، يُمكن للجيل الجديد من أنظمة الذكاء الاصطناعي الاعتماد على بيانات تشتمل على صورة لفرد ما ومقطع صوتي له، بهدف إنشاء فيديو يعرض الفرد وكأنه يتلفظ بالصوت ذاته، مع المحاكاة الدقيقة لحركات الوجه وحركات الرأس واليدين المناسبة.
على الرغم من أن مقاطع الفيديو التي أصدرها علماء جوجل ليست مثالية وتحوي بعض الأخطاء، وهي قصيرة إلى حد ما وتتميز بخلفية لا تتغير، ولا يتم فيها تحريك الأشخاص ضمن بيئة ثلاثية الأبعاد، إلا أنها تشكل قفزة هائلة في مجال إحياء الصور الثابتة.
اعتمد الباحثون في دراستهم على نموذج ذكاء اصطناعي حديث يُعرف باسم نماذج الانتشار، والتي برهنت على كفاءتها المتميزة في استحداث الصور من النصوص. وقد قام الفريق البحثي بتوسيع دائرة استعمال هذه النماذج لتضم أيضًا إنتاج مقاطع الفيديو، وذلك بعد تدريبها على مجموعة واسعة من المعلومات التي تشمل أكثر من 800 ألف هوية متمايزة و2200 ساعة من الفيديوهات. هذا الأمر مكّن نموذج VLOGGER من التعلم وإنشاء مقاطع فيديو لأفراد ينتمون لمختلف الأعراق والأعمار ويلبسون ملابس متعددة ويوجدون في أحوال وبيئات مختلفة دون أي تحيز.
يُمكن لنموذج VLOGGER أن يُستخدم في تطبيقات متنوعة، مثل ترجمة مقاطع الفيديو آليًا بتغيير المقطع الصوتي، وتعويض الإطارات الناقصة في الفيديوهات، وتصميم شخصيات افتراضية واقعية للألعاب ولعوالم الواقع الافتراضي، بالإضافة إلى خلق روبوتات محادثة قادرة على التفاعل مع الأشخاص بشكل أكثر فعالية. لكن، يبقى القلق قائمًا حيال احتمال إساءة استخدام هذا النموذج.