Einführung von MPT-7B: Ein neuer Standard für Open-Source, kommerziell nutzbare LLMs

May 6, 2023

Nachrichten

MosaicML hat eine neue Modellserie namens MPT (MosaicML Pretrained Transformer) veröffentlicht, um ein kommerziell nutzbares Open-Source-Modell anzubieten, das LLaMA-7B entspricht und übertrifft. Die MPT-Modellserie ist für die kommerzielle Nutzung lizenziert, auf eine große Datenmenge trainiert, für die Verarbeitung extrem langer Eingaben vorbereitet, für schnelles Training und Inferenz optimiert und mit einem hocheffizienten Open-Source-Trainingscode ausgestattet. MPT-7B-StoryWriter-65k+ ist ein Modell, das für das Lesen und Schreiben von Geschichten mit sehr langen Kontexten entwickelt wurde. MPT-7B-Chat ist eine Konversationsversion von MPT-7B. MPT-Modelle sind reine Decoder-Transformatoren im GPT-Stil mit einigen Verbesserungen. MosaicML’s StreamingDataset bietet eine Reihe von Vorteilen, darunter die beliebige Mischung von Datenquellen. MPT-Modelle können in den HuggingFace Hub hochgeladen und direkt auf dem MosaicML Inference Service eingesetzt werden. MosaicML wird weiterhin Basismodelle von immer höherer Qualität produzieren. Der Pretraining-Datensatz umfasst mC4, C4, RedPajama und The Stack. Die Evaluierungssuite umfasst Jeopardy, MMLU, TriviaQA, Winograd und Winogrande.

Ganzer Artikel

Diffusion Generative LLMs

Einen Kommentar hinterlassen Cancel reply

Verwandte Artikel

Einführung von MPT-7B: Ein neuer Standard für Open-Source, kommerziell nutzbare LLMs

Related Posts

Einen Kommentar hinterlassen Cancel reply

Verwandte Artikel