El DeepFloyd Lab de StabilityAI ha presentado DeepFloyd IF, un modelo de conversión de texto en imagen de código abierto que genera imágenes fotorrealistas a partir de mensajes de texto. El modelo se compone de un codificador de texto congelado y tres módulos de difusión de píxeles en cascada que generan imágenes de resolución creciente. El modelo utiliza un codificador de texto congelado basado en el transformador T5 para extraer las incrustaciones de texto, que luego se introducen en una arquitectura UNet mejorada con atención cruzada y agrupación de la atención. El modelo supera a los modelos más avanzados y alcanza una puntuación FID de 6,66 en el conjunto de datos COCO. El modelo es muy eficiente y requiere un mínimo de 16 GB de memoria RAM virtual. El modelo puede utilizarse en los modos Dream, Style Transfer, Super Resolution e Inpainting. El modelo está integrado con la biblioteca Hugging Face Diffusers, que permite a los usuarios personalizar el proceso de generación de imágenes e inspeccionar fácilmente los resultados intermedios. Los modelos disponibles en esta base de código tienen limitaciones y sesgos conocidos, y el código se libera bajo una licencia a medida. Los creadores de DeepFloyd IF son Alex Shonenkov, Misha Konstantinov, Daria Bakshandaeva, Christoph Schuhmann, Ksenia Ivanova y Nadiia Klokova. El modelo se entrenó con la inestimable ayuda de StabilityAI y su director ejecutivo Emad Mostaque, LAION y los equipos de Huggingface.
