MPT-7B ile tanışın: Açık Kaynaklı, Ticari Olarak Kullanılabilir LLM’ler için Yeni Bir Standart

MosaicML, LLaMA-7B ile eşleşen ve onu aşan ticari olarak kullanılabilir, açık kaynaklı bir model sağlamak için MPT (MosaicML Pretrained Transformer) adlı yeni bir model serisi yayınladı. MPT model serisi ticari kullanım için lisanslanmış, büyük miktarda veri üzerinde eğitilmiş, son derece uzun girdileri işlemek üzere hazırlanmış, hızlı eğitim ve çıkarım için optimize edilmiş ve son derece verimli açık kaynaklı eğitim koduyla donatılmıştır. MPT-7B-StoryWriter-65k+, süper uzun bağlam uzunluklarına sahip hikayeleri okumak ve yazmak için tasarlanmış bir modeldir. MPT-7B-Chat, MPT-7B’nin konuşmaya dayalı bir sürümüdür. MPT modelleri, çeşitli iyileştirmelere sahip GPT tarzı yalnızca kod çözücü dönüştürücülerdir. MosaicML’s StreamingDataset, veri kaynaklarının keyfi olarak karıştırılması da dahil olmak üzere bir dizi avantaj sağlar. MPT modelleri HuggingFace Hub’a yüklenebilir ve doğrudan MosaicML’in Çıkarım hizmetine dağıtılabilir. MosaicML giderek daha yüksek kalitede temel modeller üretmeye devam edecektir. Ön eğitim veri seti mC4, C4, RedPajama ve The Stack’i içerir. Değerlendirme paketi Jeopardy, MMLU, TriviaQA, Winograd ve Winogrande’yi içerir.

tam makale

Bir yanıt yazın