Predstavujeme MPT-7B: nový štandard pre komerčne využiteľné LLM s otvoreným zdrojovým kódom

MosaicML vydal novú sériu modelov s názvom MPT (MosaicML Pretrained Transformer) s cieľom poskytnúť komerčne použiteľný model s otvoreným zdrojovým kódom, ktorý sa vyrovná a prekoná LLaMA-7B. Modelový rad MPT je licencovaný na komerčné použitie, vycvičený na veľkom množstve údajov, pripravený na spracovanie extrémne dlhých vstupov, optimalizovaný na rýchle trénovanie a odvodzovanie a vybavený vysoko efektívnym open-source tréningovým kódom. MPT-7B-StoryWriter-65k+ je model určený na čítanie a zápis príbehov so superdlhým kontextom. MPT-7B-Chat je konverzačná verzia MPT-7B. Modely MPT sú transformátory v štýle dekodéra GPT s niekoľkými vylepšeniami. MosaicML’StreamingDataset poskytuje množstvo výhod vrátane ľubovoľného miešania zdrojov údajov. Modely MPT možno nahrať do HuggingFace Hub a nasadiť priamo na inferenčnú službu MosaicML’s. MosaicML bude naďalej vytvárať modely základov čoraz vyššej kvality. Súbor predtréningových údajov zahŕňa mC4, C4, RedPajama a The Stack. Súbor hodnotiacich dát obsahuje Jeopardy, MMLU, TriviaQA, Winograd a Winogrande.

celý článok

Pridaj komentár