基准测试

【MS-HAB：家庭重组任务中的低级操控基准测试，旨在提供评估家庭环境中物品操控和任务执行能力的标准】'A Benchmark for Low-Level M

【Evalchemy：一个强大的语言模型评测框架，统一整合了MTBench、WildBench、RepoBench等多个基准测试，支持多GPU并行评估和大模型分布

【M2DGR-Benchmark：基于M2DGR和M2DGR-plus数据集的最新SLAM算法基准测试平台，用于评估和比较不同SLAM系统的性能】'A benchmark bas

【SimpleBench：一个简单的基准测试工具，用于评估和比较不同模型的性能，特别适合需要快速获取模型性能反馈的用户】'SimpleBench - Ru

【MMIE：大型视觉语言模型的海量多模态交叉理解基准测试，旨在评估模型在不同领域中的理解与生成能力，支持自动化的可靠度量】'MMIE: M

【OGBench：一个用于测试和比较离线目标导向强化学习算法的基准测试平台，提供多种环境和数据集，支持像素级和状态级观察，拥有清晰的参

【Mitata：专注于提供高精度基准测试工具的开源项目，旨在帮助开发者进行性能测试】'benchmark tooling that loves you ❤️' GitHub:

【Omni-MATH：专为评估大型语言模型在奥林匹克数学竞赛级别上的数学推理能力而设计的全面挑战性基准测试，包含4428个竞赛级问题，覆盖3

【Moonshot：一款用于评估和红队任何大型语言模型（LLM）应用的简单且模块化工具，由AI验证基金会开发，集成了基准测试和红队测试，帮助AI开

【LLM价格指南：开源项目，致力于不同GPU在不同云服务/供应商上的基准测试数据收集，并与固定每Token成本进行比较，帮助用户选择适合其模

【Baguetter：灵活高效的Python搜索引擎库，支持快速基准测试、实现和测试新的搜索方法，包括稀疏、密集和混合检索技术】
'Baguetter -

【Agent系统性能评估工具：多框架下Agent模型的基准测试工具，可测试不同Agent系统在自定义推理基准上的表现，支持并行处理以加速结果

正在拼命加载中

我是有底线的

没有更多的页面可以加载啦！