Alibaba Akıllı Hesaplama Enstitüsü, tek bir portre fotoğrafını canlandırabilen ve gerçekçi konuşan veya şarkı söyleyen videolar oluşturabilen EMO adlı bir yapay zeka sistemi geliştirdi. Sistem, 3D modellere veya yüz işaretlerine olan ihtiyacı atlayarak doğrudan ses-video sentezi yaklaşımını kullanıyor. EMO bir difüzyon modeli kullanır ve 250 saatten fazla konuşan kafa videosundan oluşan bir veri kümesi üzerinde eğitilmiştir. Video kalitesi, kimliğin korunması ve ifade gücü açısından mevcut yöntemlerden daha iyi performans gösteriyor. EMO ayrıca uygun ağız şekilleri ve yüz ifadeleriyle şarkı söyleyen videolar da üretebiliyor. Sistem, giriş sesinin uzunluğuna bağlı olarak keyfi uzunlukta videolar üretebilir. Bununla birlikte, bu teknolojinin potansiyel kötüye kullanımına ilişkin etik kaygılar devam etmektedir. Araştırmacılar sentetik videoları tespit etmek için yöntemler keşfetmeyi planlıyorlar.
