MALT:用多智能体LLM训练改进推理 OneFlow 2024-12-11 14:57:27 大模型日报 ai前沿动态 【MALT:用多智能体LLM训练改进推理】链接:网页链接论文概述:MALT 提出了一种创新的多智能体大语言模型协同训练方法,通过基于轨迹扩展的合成数据生成和价值迭代的信用分配策略,有效利用正确和错误的推理路径,实现了模型的自主改进,并在多个推理任务上取得了显著的性能提升,展现了多智能体协作的巨大潜力。