Apple, doğal dil talimatlarına dayalı olarak görüntüleri düzenleyebilen MGIE adlı yeni bir açık kaynaklı yapay zeka modeli yayınladı. Santa Barbara’daki California Üniversitesi’nden araştırmacılarla işbirliği içinde geliştirilen MGIE, kullanıcı komutlarını yorumlamak ve piksel düzeyinde manipülasyonlar gerçekleştirmek için multimodal büyük dil modellerinden (MLLM’ler) yararlanıyor. Model, Photoshop tarzı modifikasyon, global fotoğraf optimizasyonu ve yerel düzenleme dahil olmak üzere çeşitli düzenleme yönlerini ele alabilir. MGIE, kullanıcı girdisinden anlamlı talimatlar türeterek ve istenen düzenlemeler için görsel hayal gücü oluşturarak MLLM’leri görüntü düzenleme sürecine entegre eder. Basit renk ayarlamalarından karmaşık nesne manipülasyonlarına kadar çok çeşitli düzenleme senaryoları gerçekleştirebilir. MGIE, GitHub’da açık kaynaklı bir proje olarak mevcut olup kod, veri ve önceden eğitilmiş modeller sağlanmaktadır. Kullanıcılar ayrıca Hugging Face Spaces üzerinde barındırılan bir web demosu aracılığıyla MGIE’yi çevrimiçi olarak deneyebilirler. MGIE, MLLM’lerin potansiyelini ortaya koyan ve modlar arası etkileşim için yeni olanaklar sunan, talimat tabanlı görüntü düzenlemede bir dönüm noktasıdır. Çeşitli amaçlar için pratik bir araçtır ve kullanıcılara görüntü oluşturma, değiştirme ve optimize etme yetkisi verir. MGIE, Apple’ın yapay zeka araştırma ve geliştirme alanındaki artan becerisini gözler önüne seriyor. Çok modlu yapay zeka sistemlerini geliştirmek için hala yapılması gereken işler olsa da, MGIE’nin piyasaya sürülmesi bu alandaki hızlı ilerlemeyi ve yardımcı yapay zekanın vazgeçilmez bir yaratıcı yardımcı olma potansiyelini gösteriyor.
