DeepSeek-V2 es un innovador modelo lingüístico de código abierto basado en la arquitectura Mixture-of-Experts, que cuenta con la impresionante cifra de 236.000 millones de parámetros, con sólo 21.000 millones activados para cada token de entrada. Aborda el reto del coste computacional introduciendo diseños arquitectónicos y metodologías de entrenamiento innovadores para lograr un equilibrio entre rendimiento y eficiencia. La arquitectura del modelo se basa en el potente Transformer e incorpora Multi-head Latent Attention (MLA) y DeepSeekMoE para mejorar la eficiencia. MLA comprime la caché de valores clave (KV) en un vector latente más pequeño, lo que reduce la huella de memoria y los cálculos necesarios durante la generación del texto. DeepSeekMoE activa de forma selectiva a los expertos relevantes para cada token, con lo que se consigue un importante ahorro de costes durante el entrenamiento. El modelo se somete a un ajuste fino supervisado y a un aprendizaje de refuerzo para alinearse con las expectativas y preferencias humanas. DeepSeek-V2 destaca en varias pruebas comparativas, demostrando un gran rendimiento en diversos dominios e idiomas, incluidos el inglés y el chino. Aunque comparte algunas limitaciones con otros LLM, sus puntos fuertes, su desarrollo continuo y su naturaleza de código abierto lo convierten en un valioso recurso para investigadores y desarrolladores.
