Memperkenalkan MPT-7B: Standar Baru untuk LLM Sumber Terbuka dan Dapat Digunakan Secara Komersial

06.05.2023

Berita

MosaicML telah merilis seri model baru yang disebut MPT (MosaicML Pretrained Transformer) untuk menyediakan model sumber terbuka yang dapat digunakan secara komersial yang cocok dan melampaui LLaMA-7B. Seri model MPT dilisensikan untuk penggunaan komersial, dilatih dengan data dalam jumlah besar, dipersiapkan untuk menangani input yang sangat panjang, dioptimalkan untuk pelatihan dan kesimpulan yang cepat, dan dilengkapi dengan kode pelatihan sumber terbuka yang sangat efisien. MPT-7B-StoryWriter-65k+ adalah model yang dirancang untuk membaca dan menulis cerita dengan konteks yang sangat panjang. MPT-7B-Chat adalah versi percakapan dari MPT-7B. Model MPT adalah transformator khusus dekoder gaya GPT dengan beberapa peningkatan. StreamingDataset MosaicML memberikan sejumlah keuntungan, termasuk pencampuran sumber data secara sewenang-wenang. Model MPT dapat diunggah ke HuggingFace Hub dan digunakan secara langsung pada layanan Inferensi MosaicML. MosaicML akan terus menghasilkan model dasar dengan kualitas yang lebih tinggi dan lebih tinggi. Dataset prapelatihan meliputi mC4, C4, RedPajama, dan The Stack. Rangkaian evaluasi meliputi Jeopardy, MMLU, TriviaQA, Winograd, dan Winogrande.

artikel lengkap

Diffusion Generative LLMs

Memperkenalkan MPT-7B: Standar Baru untuk LLM Sumber Terbuka dan Dapat Digunakan Secara Komersial

Related Posts

Tinggalkan Balasan Batalkan balasan

Memperkenalkan MPT-7B: Standar Baru untuk LLM Sumber Terbuka dan Dapat Digunakan Secara Komersial

Related Posts

Tinggalkan Balasan Batalkan balasan

Related Articles