deep-floyd/IF

StabilityAI’deki DeepFloyd Laboratuvarı, metin komutlarına dayalı olarak fotogerçekçi görüntüler üreten açık kaynaklı bir metinden görüntüye model olan DeepFloyd IF’yi tanıttı. Model, donmuş bir metin kodlayıcı ve artan çözünürlükte görüntüler üreten üç kademeli piksel difüzyon modülünden oluşmaktadır. Model, daha sonra çapraz dikkat ve dikkat havuzlama ile geliştirilmiş bir UNet mimarisine beslenen metin katıştırmalarını çıkarmak için T5 dönüştürücüsüne dayalı bir dondurulmuş metin kodlayıcı kullanır. Model, COCO veri kümesinde 6,66’lık sıfır atış FID puanı elde ederek mevcut son teknoloji modellerden daha iyi performans göstermektedir. Model son derece verimlidir ve kullanımı için en az 16 GB vRAM gerektirir. Model Dream, Style Transfer, Super Resolution ve Inpainting modlarında kullanılabilir. Model, kullanıcıların görüntü oluşturma sürecini özelleştirmesine ve ara sonuçları kolayca incelemesine olanak tanıyan Hugging Face Diffusers kütüphanesi ile entegre edilmiştir. Bu kod tabanında bulunan modellerin bilinen sınırlamaları ve önyargıları vardır ve kod ısmarlama bir lisans altında yayınlanmaktadır. DeepFloyd IF’in yaratıcıları Alex Shonenkov, Misha Konstantinov, Daria Bakshandaeva, Christoph Schuhmann, Ksenia Ivanova ve Nadiia Klokova’dır. Model, StabilityAI ve CEO’su Emad Mostaque, LAION ve Huggingface ekiplerinin çok değerli desteğiyle eğitilmiştir.

tam makale

Bir yanıt yazın