MobileDiffusion je nový prístup na rýchle generovanie textu na obrázok v mobilných zariadeniach. Je to efektívny model latentnej difúzie špeciálne navrhnutý pre mobilné zariadenia s malou veľkosťou modelu 520M parametrov. Relatívna neefektívnosť modelov difúzie text-obrázok na mobilných zariadeniach vyplýva z iteračného procesu denoizácie a zložitosti sieťovej architektúry. Predchádzajúce štúdie sa zameriavali na zníženie počtu vyhodnotení funkcie, ale efektívnosti architektúry sa venovalo menej pozornosti. MobileDiffusion to rieši skúmaním každej zložky v rámci architektúry modelu a optimalizáciou UNet a dekodéra obrazu. Zahŕňa viac transformátorov v strede a nahrádza bežné konvolučné vrstvy ľahkými oddeliteľnými konvolučnými vrstvami. Dekodér obrazu je tiež optimalizovaný pomocou variačného autoenkodéra. MobileDiffusion dosahuje subsekundové generovanie textu na obraz na prémiových zariadeniach so systémami iOS a Android. Na jednokrokové vzorkovanie využíva hybrid DiffusionGAN, ktorý výrazne zefektívňuje proces trénovania. Výkonnosť aplikácie MobileDiffusion sa meria na zariadeniach so systémami iOS aj Android a ukazuje sa, že je efektívna a dokáže rýchlo generovať vysokokvalitné obrázky.
