和Caltech合作发了一篇NeurIPS...

  • 唐杰THU
  • 2024-10-16 10:20:28
和Caltech合作发了一篇NeurIPS paper,“ReST-MCTS*: LLM Self-Training via Process Reward Guided Tree Search”。网页链接

文章提出了一种名为ReST-MCTS*的强化自训练方法,用于大型语言模型(LLM)的自训练。通过整合过程奖励引导与树搜索MCTS*,收集高质量的推理轨迹以及每步的价值,用于训练策略和奖励模型。ReST-MCTS*避免了传统基于树搜索的强化学习所需的每步手动标注,能够根据最终的正确答案推断出正确的过程奖励,这些奖励既用于进一步精炼过程奖励模型,也帮助筛选出高质量轨迹用于策略模型的自训练。实验显示,ReST-MCTS*的树搜索策略在相同的搜索预算下,比之前的LLM推理基线方法(如Best-of-N和Tree-of-Thought)具有更高的准确性。使用这种策略搜索出的轨迹作为训练数据,可以连续提升三种语言模型,并在多轮迭代中优于其他自训练算法,如ReSTEM和Self-Rewarding LM。
和Caltech合作发了一篇NeurIPS...和Caltech合作发了一篇NeurIPS...