ToolSandbox:面向大型语言模型工具使用能力的交互式评估基准,支持状态化工具执行与隐式状态依赖,提供内置用户模拟器和动态评估策略

ToolSandbox:面向大型语言模型工具使用能力的交互式评估基准,支持状态化工具执行与隐式状态依赖,提供内置用户模拟器和动态评估策略

【ToolSandbox:面向大型语言模型工具使用能力的交互式评估基准,支持状态化工具执行与隐式状态依赖,提供内置用户模拟器和动态评估策

2024-08-18浏览详情

正在拼命加载中

我是有底线的

没有更多的页面可以加载啦!