minRLHF:基于minGPT构建的最小化RLHF实现,包含HappyGPT(0.8M参数的正向情感推文生成模型)和文本摘要项目。该项目简洁易懂,提供完整的训练和推理功能,适合学习和研究RLHF技术

minRLHF:基于minGPT构建的最小化RLHF实现,包含HappyGPT(0.8M参数的正向情感推文生成模型)和文本摘要项目。该项目简洁易懂,提供完整的训练和推理功能,适合学习和研究RLHF技术

【minRLHF:基于minGPT构建的最小化RLHF实现,包含HappyGPT(0.8M参数的正向情感推文生成模型)和文本摘要项目。该项目简洁易懂,提供完

2024-12-04浏览详情

汇总人工反馈强化学习(RLHF)算法的资料库,旨在整理RLHF相关论文和博客,帮助理解如何通过人工反馈优化大型语言模型

汇总人工反馈强化学习(RLHF)算法的资料库,旨在整理RLHF相关论文和博客,帮助理解如何通过人工反馈优化大型语言模型

【汇总人工反馈强化学习(RLHF)算法的资料库,旨在整理RLHF相关论文和博客,帮助理解如何通过人工反馈优化大型语言模型】yihedeng9/rlhf

2024-11-24浏览详情

正在拼命加载中

我是有底线的

没有更多的页面可以加载啦!