ToolSandbox：面向大型语言模型工具使用能力的交互式评估基准，支持状态化工具执行与隐式状态依赖，提供内置用户模拟器和动态评估策略

爱可可-爱生活
2024-08-18 09:09:25

【ToolSandbox：面向大型语言模型工具使用能力的交互式评估基准，支持状态化工具执行与隐式状态依赖，提供内置用户模拟器和动态评估策略】'ToolSandbox: A Stateful, Conversational, Interactive Evaluation Benchmark for LLM Tool Use Capabilities' GitHub: github.com/apple/ToolSandbox 评估基准大型语言模型工具使用能力