MobileDiffusion es un enfoque novedoso para la generación rápida de texto a imagen en dispositivos móviles. Se trata de un modelo de difusión latente eficiente diseñado específicamente para dispositivos móviles, con un tamaño de modelo pequeño de 520M parámetros. La relativa ineficacia de los modelos de difusión texto-imagen en dispositivos móviles se debe al proceso iterativo de eliminación de ruido y a la complejidad de la arquitectura de red. Estudios anteriores se han centrado en reducir el número de evaluaciones de funciones, pero la eficiencia de la arquitectura ha recibido menos atención. MobileDiffusion aborda este problema examinando cada componente de la arquitectura del modelo y optimizando la red UNet y el descodificador de imágenes. Incorpora más transformadores en el centro y sustituye las capas de convolución normales por capas de convolución separables ligeras. El descodificador de imágenes también se optimiza mediante un autocodificador variacional. MobileDiffusion consigue generar texto a imagen en menos de un segundo en dispositivos iOS y Android de gama alta. Utiliza un híbrido DiffusionGAN para el muestreo en un solo paso, lo que agiliza significativamente el proceso de entrenamiento. El rendimiento de MobileDiffusion se mide tanto en dispositivos iOS como Android, y demuestra ser eficiente y capaz de generar imágenes de alta calidad rápidamente.
