Einführung von MPT-7B: Ein neuer Standard für Open-Source, kommerziell nutzbare LLMs

MosaicML hat eine neue Modellserie namens MPT (MosaicML Pretrained Transformer) veröffentlicht, um ein kommerziell nutzbares Open-Source-Modell anzubieten, das LLaMA-7B entspricht und übertrifft. Die MPT-Modellserie ist für die kommerzielle Nutzung lizenziert, auf eine große Datenmenge trainiert, für die Verarbeitung extrem langer Eingaben vorbereitet, für schnelles Training und Inferenz optimiert und mit einem hocheffizienten Open-Source-Trainingscode ausgestattet. MPT-7B-StoryWriter-65k+ ist ein Modell, das für das Lesen und Schreiben von Geschichten mit sehr langen Kontexten entwickelt wurde. MPT-7B-Chat ist eine Konversationsversion von MPT-7B. MPT-Modelle sind reine Decoder-Transformatoren im GPT-Stil mit einigen Verbesserungen. MosaicML’s StreamingDataset bietet eine Reihe von Vorteilen, darunter die beliebige Mischung von Datenquellen. MPT-Modelle können in den HuggingFace Hub hochgeladen und direkt auf dem MosaicML Inference Service eingesetzt werden. MosaicML wird weiterhin Basismodelle von immer höherer Qualität produzieren. Der Pretraining-Datensatz umfasst mC4, C4, RedPajama und The Stack. Die Evaluierungssuite umfasst Jeopardy, MMLU, TriviaQA, Winograd und Winogrande.

>

Ganzer Artikel

Einen Kommentar hinterlassen