ToolSandbox: A Stateful,...

AMiner学术头条
2024-08-17 04:16:35

ToolSandbox: A Stateful, Conversational, Interactive Evaluation Benchmark for LLM Tool Use Capabilities网页链接
这篇论文介绍了一个名为ToolSandbox的新工具，用于评估大型语言模型（LLM）使用工具的能力。近年来，随着大型语言模型的进步，人们越来越关注使用工具辅助LLM解决现实世界问题，这就需要对工具使用能力进行全面评估。与之前的研究不同，ToolSandbox包含了有状态的工具执行、工具之间的隐式状态依赖、内置的用户模拟器支持基于策略的对话评估以及针对任意轨迹的中间和最终里程碑的动态评估策略。研究结果表明，开源和商业模型之间存在显著的性能差距，而ToolSandbox中定义的复杂任务，如状态依赖、标准化和信息不足等问题，即使是目前最先进的LLM也面临挑战，从而为工具使用LLM的能力提供了全新的见解。ToolSandbox评估框架已发布在网页链接。
论文写作博士人工智能大模型