DeepSeek-V2 je prelomový open-source jazykový model založený na architektúre Mixture-of-Experts, ktorý sa môže pochváliť pôsobivými 236 miliardami parametrov, pričom pre každý vstupný token sa aktivuje len 21 miliárd. Výzvu týkajúcu sa výpočtových nákladov rieši zavedením inovatívnych architektonických návrhov a tréningových metodík s cieľom dosiahnuť rovnováhu medzi výkonom a efektívnosťou. Architektúra modelu’vychádza z výkonného základu Transformer a na zvýšenie efektívnosti zahŕňa viachlavú latentnú pozornosť (MLA) a DeepSeekMoE. MLA komprimuje vyrovnávaciu pamäť kľúčov a hodnôt (KV) do menšieho latentného vektora, čím znižuje pamäťovú stopu a výpočty potrebné počas generovania textu. DeepSeekMoE selektívne aktivuje relevantných expertov pre každý token, čím sa dosahuje výrazná úspora nákladov počas trénovania. Model prechádza doladením pod dohľadom a posilneným učením, aby sa prispôsobil ľudským očakávaniam a preferenciám. DeepSeek-V2 exceluje v rôznych benchmarkoch a vykazuje vysoký výkon v rôznych doménach a jazykoch vrátane angličtiny a čínštiny. Hoci má niektoré obmedzenia spoločné s inými LLM, jeho silné stránky, pokračujúci vývoj a otvorený zdrojový kód z neho robia cenný zdroj pre výskumníkov a vývojárov.
