学术基准测试

Mistral AI Evals：一个用于运行Mistral AI发布的评估以及为流行学术基准测试提供标准化提示、解析和度量计算的代码库，支持多轮LLM-as-a-judge评估任务

Mistral AI Evals：一个用于运行Mistral AI发布的评估以及为流行学术基准测试提供标准化提示、解析和度量计算的代码库，支持多轮LLM-as-a-judge评估任务

【Mistral AI Evals：一个用于运行Mistral AI发布的评估以及为流行学术基准测试提供标准化提示、解析和度量计算的代码库，支持多轮LL

2024-11-19 浏览详情

正在拼命加载中

我是有底线的

没有更多的页面可以加载啦！