MS-HAB:家庭重组任务中的低级操控基准测试,旨在提供评估家庭环境中物品操控和任务执行能力的标准

MS-HAB:家庭重组任务中的低级操控基准测试,旨在提供评估家庭环境中物品操控和任务执行能力的标准

【MS-HAB:家庭重组任务中的低级操控基准测试,旨在提供评估家庭环境中物品操控和任务执行能力的标准】'A Benchmark for Low-Level M

2024-12-24浏览详情

Evalchemy:一个强大的语言模型评测框架,统一整合了MTBench、WildBench、RepoBench等多个基准测试,支持多GPU并行评估和大模型分布式评测。特色包括统一安装部署、并行评估、

Evalchemy:一个强大的语言模型评测框架,统一整合了MTBench、WildBench、RepoBench等多个基准测试,支持多GPU并行评估和大模型分布式评测。特色包括统一安装部署、并行评估、

【Evalchemy:一个强大的语言模型评测框架,统一整合了MTBench、WildBench、RepoBench等多个基准测试,支持多GPU并行评估和大模型分布

2024-11-25浏览详情

M2DGR-Benchmark:基于M2DGR和M2DGR-plus数据集的最新SLAM算法基准测试平台,用于评估和比较不同SLAM系统的性能

M2DGR-Benchmark:基于M2DGR和M2DGR-plus数据集的最新SLAM算法基准测试平台,用于评估和比较不同SLAM系统的性能

【M2DGR-Benchmark:基于M2DGR和M2DGR-plus数据集的最新SLAM算法基准测试平台,用于评估和比较不同SLAM系统的性能】'A benchmark bas

2024-11-22浏览详情

SimpleBench:一个简单的基准测试工具,用于评估和比较不同模型的性能,特别适合需要快速获取模型性能反馈的用户

SimpleBench:一个简单的基准测试工具,用于评估和比较不同模型的性能,特别适合需要快速获取模型性能反馈的用户

【SimpleBench:一个简单的基准测试工具,用于评估和比较不同模型的性能,特别适合需要快速获取模型性能反馈的用户】'SimpleBench - Ru

2024-11-17浏览详情

MMIE:大型视觉语言模型的海量多模态交叉理解基准测试,旨在评估模型在不同领域中的理解与生成能力,支持自动化的可靠度量

MMIE:大型视觉语言模型的海量多模态交叉理解基准测试,旨在评估模型在不同领域中的理解与生成能力,支持自动化的可靠度量

【MMIE:大型视觉语言模型的海量多模态交叉理解基准测试,旨在评估模型在不同领域中的理解与生成能力,支持自动化的可靠度量】'MMIE: M

2024-11-06浏览详情

OGBench:一个用于测试和比较离线目标导向强化学习算法的基准测试平台,提供多种环境和数据集,支持像素级和状态级观察,拥有清晰的参考实现和易于使用的API

OGBench:一个用于测试和比较离线目标导向强化学习算法的基准测试平台,提供多种环境和数据集,支持像素级和状态级观察,拥有清晰的参考实现和易于使用的API

【OGBench:一个用于测试和比较离线目标导向强化学习算法的基准测试平台,提供多种环境和数据集,支持像素级和状态级观察,拥有清晰的参

2024-11-01浏览详情

Mitata:专注于提供高精度基准测试工具的开源项目,旨在帮助开发者进行性能测试

Mitata:专注于提供高精度基准测试工具的开源项目,旨在帮助开发者进行性能测试

【Mitata:专注于提供高精度基准测试工具的开源项目,旨在帮助开发者进行性能测试】'benchmark tooling that loves you ❤️' GitHub:

2024-10-03浏览详情

Omni-MATH:专为评估大型语言模型在奥林匹克数学竞赛级别上的数学推理能力而设计的全面挑战性基准测试,包含4428个竞赛级问题,覆盖33个以上子领域和10个难度级别

Omni-MATH:专为评估大型语言模型在奥林匹克数学竞赛级别上的数学推理能力而设计的全面挑战性基准测试,包含4428个竞赛级问题,覆盖33个以上子领域和10个难度级别

【Omni-MATH:专为评估大型语言模型在奥林匹克数学竞赛级别上的数学推理能力而设计的全面挑战性基准测试,包含4428个竞赛级问题,覆盖3

2024-09-19浏览详情

Moonshot:一款用于评估和红队任何大型语言模型(LLM)应用的简单且模块化工具,由AI验证基金会开发,集成了基准测试和红队测试,帮助AI开发者、合规团队和AI系统所有者评估LLMs和LLM应用

Moonshot:一款用于评估和红队任何大型语言模型(LLM)应用的简单且模块化工具,由AI验证基金会开发,集成了基准测试和红队测试,帮助AI开发者、合规团队和AI系统所有者评估LLMs和LLM应用

【Moonshot:一款用于评估和红队任何大型语言模型(LLM)应用的简单且模块化工具,由AI验证基金会开发,集成了基准测试和红队测试,帮助AI开

2024-08-28浏览详情

LLM价格指南:开源项目,致力于不同GPU在不同云服务/供应商上的基准测试数据收集,并与固定每Token成本进行比较,帮助用户选择适合其模型的GPU、云服务和供应商

LLM价格指南:开源项目,致力于不同GPU在不同云服务/供应商上的基准测试数据收集,并与固定每Token成本进行比较,帮助用户选择适合其模型的GPU、云服务和供应商

【LLM价格指南:开源项目,致力于不同GPU在不同云服务/供应商上的基准测试数据收集,并与固定每Token成本进行比较,帮助用户选择适合其模

2024-08-22浏览详情

Baguetter:灵活高效的Python搜索引擎库,支持快速基准测试、实现和测试新的搜索方法,包括稀疏、密集和混合检索技术

Baguetter:灵活高效的Python搜索引擎库,支持快速基准测试、实现和测试新的搜索方法,包括稀疏、密集和混合检索技术

【Baguetter:灵活高效的Python搜索引擎库,支持快速基准测试、实现和测试新的搜索方法,包括稀疏、密集和混合检索技术】
'Baguetter -

2024-08-18浏览详情

Agent系统性能评估工具:多框架下Agent模型的基准测试工具,可测试不同Agent系统在自定义推理基准上的表现,支持并行处理以加速结果获取

Agent系统性能评估工具:多框架下Agent模型的基准测试工具,可测试不同Agent系统在自定义推理基准上的表现,支持并行处理以加速结果获取

【Agent系统性能评估工具:多框架下Agent模型的基准测试工具,可测试不同Agent系统在自定义推理基准上的表现,支持并行处理以加速结果

2024-08-11浏览详情

正在拼命加载中

我是有底线的

没有更多的页面可以加载啦!