deep-floyd/IF

Laboratorium DeepFloyd di StabilityAI telah memperkenalkan DeepFloyd IF, sebuah model teks-ke-gambar sumber terbuka yang menghasilkan gambar fotorealistik berdasarkan petunjuk teks. Model ini terdiri dari encoder teks yang dibekukan dan tiga modul difusi piksel bertingkat yang menghasilkan gambar dengan resolusi yang meningkat. Model ini menggunakan penyandi teks beku berdasarkan transformator T5 untuk mengekstrak penyematan teks, yang kemudian dimasukkan ke dalam arsitektur UNet yang disempurnakan dengan penyatuan perhatian silang dan perhatian. Model ini mengungguli model-model mutakhir saat ini, mencapai skor FID tanpa bidikan sebesar 6,66 pada kumpulan data COCO. Model ini sangat efisien dan membutuhkan minimal 16GB vRAM untuk digunakan. Model ini tersedia untuk digunakan dalam mode Dream, Style Transfer, Super Resolution, dan Inpainting. Model ini terintegrasi dengan pustaka Hugging Face Diffusers, yang memungkinkan pengguna untuk menyesuaikan proses pembuatan gambar dan memeriksa hasil perantara dengan mudah. Model yang tersedia dalam basis kode ini memiliki keterbatasan dan bias yang diketahui, dan kode ini dirilis di bawah lisensi yang dipesan lebih dahulu. Pencipta DeepFloyd IF adalah Alex Shonenkov, Misha Konstantinov, Daria Bakshandaeva, Christoph Schuhmann, Ksenia Ivanova, dan Nadiia Klokova. Model ini dilatih dengan dukungan yang tak ternilai dari StabilityAI dan CEO Emad Mostaque, LAION, dan tim Huggingface.

artikel lengkap

Tinggalkan Balasan