El Instituto de Computación Inteligente de Alibaba ha desarrollado un sistema de inteligencia artificial llamado EMO capaz de animar una sola foto de retrato y generar vídeos realistas en los que se habla o canta. El sistema utiliza un método de síntesis directa de audio a vídeo, sin necesidad de modelos 3D ni puntos de referencia faciales. EMO emplea un modelo de difusión y se ha entrenado con un conjunto de datos de más de 250 horas de vídeos de cabezas parlantes. Supera a los métodos existentes en cuanto a calidad de vídeo, preservación de la identidad y expresividad. EMO también puede generar vídeos de cantantes con formas de boca y expresiones faciales adecuadas. El sistema puede producir vídeos de duración arbitraria en función de la duración del audio de entrada. Sin embargo, siguen existiendo dudas éticas sobre el posible uso indebido de esta tecnología. Los investigadores planean explorar métodos para detectar vídeos sintéticos.
