Stability AI lanza StableVicuna, el primer chatbot RLHF LLM de código abierto del mundo de la IA

Stability AI ha lanzado StableVicuna, el primer chatbot de código abierto a gran escala entrenado mediante aprendizaje reforzado a partir de feedback humano (RLHF). El éxito de los modelos de chat se debe a dos paradigmas de entrenamiento: el ajuste fino de instrucciones y el aprendizaje reforzado a través de la retroalimentación humana. Sin embargo, faltan modelos de acceso libre y código abierto que apliquen ambos paradigmas. StableVicuna es una versión más ajustada a las instrucciones y entrenada con RLHF de Vicuna v0 13b, que es un modelo LLaMA 13b ajustado a las instrucciones. Para lograr el alto rendimiento de StableVicuna, el modelo Vicuna básico se entrena con un ajuste fino supervisado utilizando una mezcla de tres conjuntos de datos. El modelo puede descargarse como delta de peso frente al modelo LLaMA original. Además del chatbot, Stability AI se complace en presentar un avance de su próxima interfaz de chat, que se encuentra en las fases finales de desarrollo. La empresa anima a los usuarios a probar StableVicuna y a aportar sus comentarios para ayudar a mejorar la experiencia del usuario. El modelo StableVicuna está disponible en un espacio de HuggingFace. La empresa está comprometida con la mejora continua e iterará sobre este chatbot y desplegará un bot de Discord en el servidor de Stable Foundation. La compañía extiende su gratitud a sus colaboradores de código abierto que han jugado un papel crucial en dar vida a este proyecto.

artículo completo

Deja una respuesta