نجح باحثون بشركة مايكروسوفت في الوصول إلى نموذج جديد للذكاء الاصطناعي يمكنه توليد مقاطع فيديو واقعية بجودة عالية لوجوه بشرية تتحدث من خلال صورة ثابتة واحدة.
يستطيع توليد الفيديوهات من خلال الصور الفنية
وكشفت الشركة أن النموذج الجديد يدعم توليد الفيديو عبر الإنترنت في زمن قياسي، يحتوي على حركات الشفاه المتزامنة لتتناسب مع الصوت، بالإضافة إلى تعبيرات الوجه وحركة الرأس لجعلها تبدو طبيعية، ويوفر تحكمًا دقيقًا للمستخدم في جوانب مختلفة من الفيديو، مثل الاتجاه الرئيسي لنظرة العين، ومسافة الرأس، والمزيد من التفاعلات.
ويمكن لنموذج الذكاء الاصطناعي VASA-1 توليد مقاطع فيديو باستخدام الصور الفنية، والصوت الغنائي، والكلام غير الإنجليزي، كما أن المقاطع المولدة تصل دقتها إلى 512×512 بكسلًا بمعدل يصل إلى 40 إطارًا في الثانية.
وأكدت أنها لا تنوي إطلاق منتج أو واجهة برمجة تطبيقات تستفيد من نموذج VASA-1 نظرًا إلى الخطر الواضح المتمثل في توليد التزييف العميق من هذه التكنولوجيا.
وأشارت أيضاً أنها لن تطلق نموذج الذكاء الاصطناعي للجمهور لتوليد شخصيات تفاعلية افتراضية باستخدامه، مؤكدة التزامها بتطوير الذكاء الاصطناعي المسؤول بهدف تعزيز رفاهية الإنسان.