Mistral AI Evals：一个用于运行Mistral AI发布的评估以及为流行学术基准测试提供标准化提示、解析和度量计算的代码库，支持多轮LLM-as-a-judge评估任务

爱可可-爱生活
2024-11-19 15:12:41

【Mistral AI Evals：一个用于运行Mistral AI发布的评估以及为流行学术基准测试提供标准化提示、解析和度量计算的代码库，支持多轮LLM-as-a-judge评估任务】'Mistral Evals - This repository contains code to run evals released by Mistral AI as well as standardized prompts, parsing and metrics computation for popular academic benchmarks.' GitHub: github.com/mistralai/mistral-evals AI评估学术基准测试代码库