汇总人工反馈强化学习（RLHF）算法的资料库，旨在整理RLHF相关论文和博客，帮助理解如何通过人工反馈优化大型语言模型

爱可可-爱生活
2024-11-24 14:12:15

【汇总人工反馈强化学习（RLHF）算法的资料库，旨在整理RLHF相关论文和博客，帮助理解如何通过人工反馈优化大型语言模型】yihedeng9/rlhf-summary-notes: A brief and partial summary of RLHF algorithms. GitHub: github.com/yihedeng9/rlhf-summary-notes RLHF 人工智能机器学习