DeepSeek, en colaboración con la Universidad de Tsinghua, está desarrollando modelos de IA autoperfeccionados conocidos como DeepSeek-GRM, siglas de generalist reward modeling (modelado de recompensa generalista). El objetivo de esta iniciativa es mejorar la eficacia de los modelos de inteligencia artificial y aproximarlos más a las preferencias humanas. La colaboración ha dado lugar a la creación de un novedoso método de aprendizaje por refuerzo que reduce los requisitos de entrenamiento de los modelos de IA, disminuyendo así los costes operativos. El nuevo enfoque, denominado ajuste crítico autodirigido, ha demostrado un mejor rendimiento en comparación con los métodos existentes, consiguiéndolo con menos recursos informáticos.
Los avances de DeepSeek llegan después de que la empresa causara sensación en el mercado con su modelo de IA de razonamiento de bajo coste lanzado a principios de este año. Los nuevos modelos estarán disponibles en código abierto, lo que permitirá a otros desarrolladores beneficiarse de las innovaciones. Empresas competidoras como Alibaba y OpenAI también están explorando mejoras en las capacidades de razonamiento y autorrefino de la IA. Meta Platforms ha lanzado recientemente sus modelos de IA Llama 4, que utilizan una arquitectura de Mezcla de Expertos, compitiendo directamente con la tecnología de DeepSeek. Aunque DeepSeek no ha anunciado una fecha de lanzamiento específica para su próximo modelo insignia, sus esfuerzos de investigación y desarrollo en curso están posicionados para impactar significativamente en el panorama de la IA.
