RLHF

minRLHF：基于minGPT构建的最小化RLHF实现，包含HappyGPT(0.8M参数的正向情感推文生成模型)和文本摘要项目。该项目简洁易懂，提供完整的训练和推理功能，适合学习和研究RLHF技术

minRLHF：基于minGPT构建的最小化RLHF实现，包含HappyGPT(0.8M参数的正向情感推文生成模型)和文本摘要项目。该项目简洁易懂，提供完整的训练和推理功能，适合学习和研究RLHF技术

【minRLHF：基于minGPT构建的最小化RLHF实现，包含HappyGPT(0.8M参数的正向情感推文生成模型)和文本摘要项目。该项目简洁易懂，提供完

2024-12-04 浏览详情

汇总人工反馈强化学习（RLHF）算法的资料库，旨在整理RLHF相关论文和博客，帮助理解如何通过人工反馈优化大型语言模型

汇总人工反馈强化学习（RLHF）算法的资料库，旨在整理RLHF相关论文和博客，帮助理解如何通过人工反馈优化大型语言模型

【汇总人工反馈强化学习（RLHF）算法的资料库，旨在整理RLHF相关论文和博客，帮助理解如何通过人工反馈优化大型语言模型】yihedeng9/rlhf

2024-11-24 浏览详情

正在拼命加载中

我是有底线的

没有更多的页面可以加载啦！