Stability AI, insan geri bildiriminden güçlendirilmiş öğrenme (RLHF) yoluyla eğitilen ilk büyük ölçekli açık kaynaklı sohbet robotu olan StableVicuna’yı piyasaya sürdü. Sohbet modellerinin başarısı iki eğitim paradigmasına bağlıdır: talimat ince ayarı ve insan geri bildirimi yoluyla pekiştirmeli öğrenme. Ancak, her iki paradigmanın da uygulandığı açık erişimli ve açık kaynaklı modellerin eksikliği söz konusudur. StableVicuna, talimatlara göre ince ayarlanmış bir LLaMA 13b modeli olan Vicuna v0 13b’nin talimatlara göre ince ayarlanmış ve RLHF ile eğitilmiş bir versiyonudur. StableVicuna’nın güçlü performansını elde etmek için temel Vicuna modeli, üç veri kümesinin bir karışımı kullanılarak denetimli ince ayar ile daha da eğitilmiştir. Model, orijinal LLaMA modeline karşı bir ağırlık deltası olarak indirilebilir. Sohbet robotunun yanı sıra Stability AI, geliştirmenin son aşamalarında olan yaklaşan sohbet arayüzünün önizlemesini yapmaktan heyecan duyuyor. Şirket, kullanıcıları StableVicuna’yı denemeye ve kullanıcı deneyimini geliştirmeye yardımcı olmak için geri bildirimde bulunmaya teşvik ediyor. StableVicuna modeli bir HuggingFace alanında mevcuttur. Şirket sürekli iyileştirme konusunda kararlıdır ve bu sohbet botu üzerinde yineleme yapacak ve Stable Foundation sunucusuna bir Discord botu yerleştirecektir. Şirket, bu projenin hayata geçirilmesinde çok önemli bir rol oynayan açık kaynak katılımcılarına şükranlarını sunuyor.
