ToolSandbox:面向大型语言模型工具使用能力的交互式评估基准,支持状态化工具执行与隐式状态依赖,提供内置用户模拟器和动态评估策略 爱可可-爱生活 2024-08-18 09:09:25 【ToolSandbox:面向大型语言模型工具使用能力的交互式评估基准,支持状态化工具执行与隐式状态依赖,提供内置用户模拟器和动态评估策略】'ToolSandbox: A Stateful, Conversational, Interactive Evaluation Benchmark for LLM Tool Use Capabilities' GitHub: github.com/apple/ToolSandbox 评估基准 大型语言模型 工具使用能力