Presentamos MPT-7B: un nuevo estándar para los LLM de código abierto y uso comercial

MosaicML ha lanzado una nueva serie de modelos denominada MPT (MosaicML Pretrained Transformer) para ofrecer un modelo de código abierto y uso comercial que iguala y supera al LLaMA-7B. La serie de modelos MPT tiene licencia de uso comercial, está entrenada con una gran cantidad de datos, preparada para manejar entradas extremadamente largas, optimizada para un entrenamiento y una inferencia rápidos, y equipada con un código de entrenamiento de código abierto muy eficiente. MPT-7B-StoryWriter-65k+ es un modelo diseñado para leer y escribir historias con longitudes de contexto superlargas. MPT-7B-Chat es una versión conversacional de MPT-7B. Los modelos MPT son transformadores de sólo descodificador estilo GPT con varias mejoras. MosaicML’s StreamingDataset proporciona una serie de ventajas, incluida la mezcla arbitraria de fuentes de datos. Los modelos MPT pueden cargarse en HuggingFace Hub y desplegarse directamente en el servicio de inferencia de MosaicML. MosaicML seguirá produciendo modelos de cimentación de calidad cada vez mayor. El conjunto de datos de preentrenamiento incluye mC4, C4, RedPajama y The Stack. El conjunto de evaluación incluye Jeopardy, MMLU, TriviaQA, Winograd y Winogrande.

artículo completo

Deja una respuesta