DeepSeek entwickelt in Zusammenarbeit mit der Tsinghua-Universität selbstverbessernde KI-Modelle, die unter dem Namen DeepSeek-GRM bekannt sind, was für generalistische Belohnungsmodellierung steht. Diese Initiative zielt darauf ab, die Effizienz von KI-Modellen zu verbessern und sie gleichzeitig besser an die menschlichen Präferenzen anzupassen. Die Partnerschaft hat zur Entwicklung einer neuartigen Methode des Verstärkungslernens geführt, die die Trainingsanforderungen für KI-Modelle reduziert und damit die Betriebskosten senkt. Der neue Ansatz, das so genannte Self-Principled Critique Tuning, hat im Vergleich zu bestehenden Methoden eine bessere Leistung gezeigt, die mit weniger Rechenressourcen erreicht wird.
DeepSeek’s Fortschritte kommen, nachdem das Unternehmen mit seinem kostengünstigen KI-Modell, das zu Beginn dieses Jahres veröffentlicht wurde, Wellen auf dem Markt geschlagen hat. Die neuen Modelle werden auf Open-Source-Basis zur Verfügung gestellt, so dass andere Entwickler von den Innovationen profitieren können. Konkurrierende Unternehmen wie Alibaba und OpenAI erforschen ebenfalls Verbesserungen im Bereich des logischen Denkens und der Selbstveredelungsfähigkeiten der KI. Meta Platforms hat vor kurzem seine Llama-4-KI-Modelle veröffentlicht, die eine Mixture-of-Experts-Architektur verwenden und damit direkt mit der Technologie von DeepSeek konkurrieren. DeepSeek hat zwar noch kein konkretes Datum für die Veröffentlichung seines nächsten Flaggschiffmodells bekannt gegeben, doch seine laufenden Forschungs- und Entwicklungsbemühungen werden die KI-Landschaft erheblich beeinflussen.
