MALT：用多智能体LLM训练改进推理

OneFlow
2024-12-11 14:57:27

大模型日报 ai前沿动态

【MALT：用多智能体LLM训练改进推理】

链接：网页链接
论文概述：MALT 提出了一种创新的多智能体大语言模型协同训练方法，通过基于轨迹扩展的合成数据生成和价值迭代的信用分配策略，有效利用正确和错误的推理路径，实现了模型的自主改进，并在多个推理任务上取得了显著的性能提升，展现了多智能体协作的巨大潜力。