DeepSeek, bekerja sama dengan Universitas Tsinghua, mengembangkan model AI yang dapat memperbaiki diri sendiri yang dikenal sebagai DeepSeek-GRM, yang merupakan singkatan dari pemodelan hadiah generalis. Inisiatif ini bertujuan untuk meningkatkan efisiensi model AI sekaligus menyelaraskannya lebih dekat dengan preferensi manusia. Kemitraan ini telah menghasilkan metode pembelajaran penguatan baru yang mengurangi kebutuhan pelatihan untuk model AI, sehingga menurunkan biaya operasional. Pendekatan baru yang disebut self-principled critique tuning ini telah menunjukkan kinerja yang lebih baik dibandingkan dengan metode yang ada, dan dapat dicapai dengan sumber daya komputasi yang lebih sedikit.
Related Posts
