Výskumná skupina DeepFloyd, za ktorou stojí spoločnosť Stability AI, predstavila model DeepFloyd IF, ktorý dokáže integrovať text do obrázkov. DeepFloyd IF, vycvičený na súbore údajov s viac ako miliardou obrázkov a textov, dokáže vytvoriť obrázok z podnetu, ako je medvedík v tričku s nápisom Deep Floyd’ prípadne v rôznych štýloch. DeepFloyd IF používa na generovanie obrázkov viacero rôznych procesov poskladaných do modulárnej architektúry. Model je obzvlášť dobrý v chápaní zložitých podnetov a dokonca aj priestorových vzťahov opísaných v podnetoch. Dokáže generovať čitateľný a správne napísaný text v obrázkoch a dokonca dokáže porozumieť aj podnetom vo viacerých jazykoch. Očakáva sa, že DeepFloyd IF odomkne vlnu nových možností generatívneho umenia vrátane dizajnu loga, webového dizajnu, plagátov, billboardov a dokonca mémov. Model však negeneruje obrázky, ktoré by boli tak estetické ako niektoré difúzne modely. V modeli existuje aj možnosť skreslenia, keďže texty a obrázky z komunít a kultúr, ktoré používajú iné jazyky, pravdepodobne nebudú dostatočne zohľadnené. DeepFloyd IF, podobne ako iné generatívne modely s otvoreným zdrojovým kódom, by sa mohol používať na ubližovanie, napríklad na generovanie deepfakes pornografických celebrít a grafických zobrazení násilia.
