DeepSeek-V2 adalah model bahasa sumber terbuka yang inovatif berdasarkan arsitektur Mixture-of-Experts, yang memiliki 236 miliar parameter yang mengesankan, dengan hanya 21 miliar yang diaktifkan untuk setiap token input. Model ini menjawab tantangan biaya komputasi dengan memperkenalkan desain arsitektur dan metodologi pelatihan yang inovatif untuk mencapai keseimbangan antara kinerja dan efisiensi. Arsitektur model ini dibangun di atas fondasi Transformer yang kuat dan menggabungkan Multi-head Latent Attention (MLA) dan DeepSeekMoE untuk meningkatkan efisiensi. MLA memampatkan cache Key-Value (KV) menjadi vektor laten yang lebih kecil, sehingga mengurangi jejak memori dan komputasi yang diperlukan selama pembuatan teks. DeepSeekMoE secara selektif mengaktifkan pakar yang relevan untuk setiap token, mencapai penghematan biaya yang signifikan selama pelatihan. Model ini mengalami penyempurnaan yang diawasi dan pembelajaran penguatan untuk menyelaraskan dengan harapan dan preferensi manusia. DeepSeek-V2 unggul dalam berbagai tolok ukur, menunjukkan kinerja yang kuat di berbagai domain dan bahasa, termasuk bahasa Inggris dan Mandarin. Meskipun memiliki beberapa keterbatasan dengan LLM lainnya, kekuatannya, pengembangan yang berkelanjutan, dan sifatnya yang open-source membuatnya menjadi sumber daya yang berharga bagi para peneliti dan pengembang.
