Evalchemy:一个强大的语言模型评测框架,统一整合了MTBench、WildBench、RepoBench等多个基准测试,支持多GPU并行评估和大模型分布式评测。特色包括统一安装部署、并行评估、 爱可可-爱生活 2024-11-25 04:04:04 【Evalchemy:一个强大的语言模型评测框架,统一整合了MTBench、WildBench、RepoBench等多个基准测试,支持多GPU并行评估和大模型分布式评测。特色包括统一安装部署、并行评估、标准化输出格式和可选的数据库集成,可用于全面评估指令微调模型的性能】'Automatic Evals for Instruction-Tuned Models'GitHub: github.com/mlfoundations/evalchemyAI评测 语言模型 基准测试 机器学习