Evalchemy：一个强大的语言模型评测框架，统一整合了MTBench、WildBench、RepoBench等多个基准测试，支持多GPU并行评估和大模型分布式评测。特色包括统一安装部署、并行评估、

爱可可-爱生活
2024-11-25 04:04:04

【Evalchemy：一个强大的语言模型评测框架，统一整合了MTBench、WildBench、RepoBench等多个基准测试，支持多GPU并行评估和大模型分布式评测。特色包括统一安装部署、并行评估、标准化输出格式和可选的数据库集成，可用于全面评估指令微调模型的性能】
'Automatic Evals for Instruction-Tuned Models'
GitHub: github.com/mlfoundations/evalchemy
AI评测语言模型基准测试机器学习