Reinforcement...

JasonDai大数据AI
2025-01-11 00:00:46

Reinforcement Fine-Tuning（RFT）：强化微调

RFT能使具有推理能力的大模型（例如o1）仅通过少量样本（几十个实例）学习并改进
相较于传统的Supervised Fine-Tuning（(SFT），RFT能更高效地利用数据，并教导模型理解正确答案背后的推理过程
工作流程包括四个主要步骤
1.收集具有明确对错答案的数据集
2.模型生成推理路径和相应的输出结果
3.由评估每个输出的准确性
4.利用强化学习算法（如PPO）更新模型参数

⭐技术博客：openpipe.ai/blog/openai-rft

人工智能大模型 AI创造营