DeepSeek-V2, Uzmanların Karışımı mimarisine dayanan, her bir girdi belirteci için yalnızca 21 milyar etkinleştirilen etkileyici 236 milyar parametreye sahip, çığır açan bir açık kaynaklı dil modelidir. Performans ve verimlilik arasında bir denge sağlamak için yenilikçi mimari tasarımlar ve eğitim metodolojileri sunarak hesaplama maliyeti sorununu ele alır. Modelin mimarisi, güçlü Transformer temeli üzerine inşa edilmiştir ve verimliliği artırmak için Multi-head Latent Attention (MLA) ve DeepSeekMoE’yi içermektedir. MLA, Anahtar-Değer (KV) önbelleğini daha küçük bir gizli vektör halinde sıkıştırarak metin oluşturma sırasında gereken bellek ayak izini ve hesaplamayı azaltır. DeepSeekMoE, her bir belirteç için ilgili uzmanları seçerek etkinleştirir ve eğitim sırasında önemli maliyet tasarrufu sağlar. Model, insan beklentileri ve tercihleriyle uyum sağlamak için denetimli ince ayar ve takviye öğrenmeden geçer. DeepSeek-V2, İngilizce ve Çince de dahil olmak üzere çeşitli alanlarda ve dillerde güçlü performans göstererek çeşitli kıyaslamalarda üstünlük sağlamaktadır. Diğer LLM’lerle bazı sınırlamaları paylaşsa da, güçlü yönleri, devam eden gelişimi ve açık kaynak yapısı onu araştırmacılar ve geliştiriciler için değerli bir kaynak haline getirmektedir.
