【minRLHF:基于minGPT构建的最小化RLHF实现,包含HappyGPT(0.8M参数的正向情感推文生成模型)和文本摘要项目。该项目简洁易懂,提供完
2024-12-04浏览详情
【汇总人工反馈强化学习(RLHF)算法的资料库,旨在整理RLHF相关论文和博客,帮助理解如何通过人工反馈优化大型语言模型】yihedeng9/rlhf
2024-11-24浏览详情
正在拼命加载中
我是有底线的
没有更多的页面可以加载啦!