汇总人工反馈强化学习(RLHF)算法的资料库,旨在整理RLHF相关论文和博客,帮助理解如何通过人工反馈优化大型语言模型 爱可可-爱生活 2024-11-24 14:12:15 【汇总人工反馈强化学习(RLHF)算法的资料库,旨在整理RLHF相关论文和博客,帮助理解如何通过人工反馈优化大型语言模型】yihedeng9/rlhf-summary-notes: A brief and partial summary of RLHF algorithms. GitHub: github.com/yihedeng9/rlhf-summary-notes RLHF 人工智能 机器学习