Reinforcement...

  • JasonDai大数据AI
  • 2025-01-11 00:00:46
Reinforcement Fine-Tuning(RFT):强化微调

RFT能使具有推理能力的大模型(例如o1)仅通过少量样本(几十个实例)学习并改进
相较于传统的Supervised Fine-Tuning((SFT),RFT能更高效地利用数据,并教导模型理解正确答案背后的推理过程
工作流程包括四个主要步骤
1.收集具有明确对错答案的数据集
2.模型生成推理路径和相应的输出结果
3.由评估每个输出的准确性
4.利用强化学习算法(如PPO)更新模型参数

⭐技术博客:openpipe.ai/blog/openai-rft

人工智能大模型AI创造营
Reinforcement...