Evalchemy:一个强大的语言模型评测框架,统一整合了MTBench、WildBench、RepoBench等多个基准测试,支持多GPU并行评估和大模型分布式评测。特色包括统一安装部署、并行评估、

  • 爱可可-爱生活
  • 2024-11-25 04:04:04
【Evalchemy:一个强大的语言模型评测框架,统一整合了MTBench、WildBench、RepoBench等多个基准测试,支持多GPU并行评估和大模型分布式评测。特色包括统一安装部署、并行评估、标准化输出格式和可选的数据库集成,可用于全面评估指令微调模型的性能】
'Automatic Evals for Instruction-Tuned Models'
GitHub: github.com/mlfoundations/evalchemy
AI评测 语言模型 基准测试 机器学习
Evalchemy:一个强大的语言模型评测框架,统一整合了MTBench、WildBench、RepoBench等多个基准测试,支持多GPU并行评估和大模型分布式评测。特色包括统一安装部署、并行评估、标准化输出格式和可选的数据库集成,可用于全面评估指令微调模型的性能Evalchemy:一个强大的语言模型评测框架,统一整合了MTBench、WildBench、RepoBench等多个基准测试,支持多GPU并行评估和大模型分布式评测。特色包括统一安装部署、并行评估、标准化输出格式和可选的数据库集成,可用于全面评估指令微调模型的性能