DeepSeek-V2 ist ein bahnbrechendes Open-Source-Sprachmodell, das auf der Mixture-of-Experts-Architektur basiert. Es verfügt über beeindruckende 236 Milliarden Parameter, wobei nur 21 Milliarden für jedes Eingabe-Token aktiviert werden. Es geht die Herausforderung der Rechenkosten an, indem es innovative Architekturen und Trainingsmethoden einführt, um ein Gleichgewicht zwischen Leistung und Effizienz zu erreichen. Die Architektur des Modells baut auf der leistungsstarken Transformer-Grundlage auf und beinhaltet Multi-head Latent Attention (MLA) und DeepSeekMoE zur Steigerung der Effizienz. MLA komprimiert den Key-Value (KV) Cache in einen kleineren latenten Vektor und reduziert so den Speicherbedarf und die während der Texterstellung erforderlichen Berechnungen. DeepSeekMoE aktiviert selektiv relevante Experten für jedes Token und erzielt so erhebliche Kosteneinsparungen beim Training. Das Modell wird einer überwachten Feinabstimmung und einem Verstärkungslernen unterzogen, um sich an die menschlichen Erwartungen und Präferenzen anzupassen. DeepSeek-V2 schneidet in verschiedenen Benchmarks hervorragend ab und zeigt eine starke Leistung in verschiedenen Domänen und Sprachen, einschließlich Englisch und Chinesisch. Obwohl es einige Einschränkungen mit anderen LLMs teilt, machen seine Stärken, seine laufende Entwicklung und sein Open-Source-Charakter es zu einer wertvollen Ressource für Forscher und Entwickler.
