【ToolSandbox:面向大型语言模型工具使用能力的交互式评估基准,支持状态化工具执行与隐式状态依赖,提供内置用户模拟器和动态评估策
2024-08-18浏览详情
正在拼命加载中
我是有底线的
没有更多的页面可以加载啦!