AI评估

【PhysGame：用于评估物理常识理解在游戏视频中的基准数据集，提供了物理知识增强的大型视频语言模型】PhysGame Benchmark for Physi

【LLM Confabulation Benchmark：大型语言模型在面对基于文档的误导性问题时，如何减少产生不存在答案（幻觉或虚构）的能力评估工具，特别

【judges：一个轻量级的LLM评估库，提供多种预设的AI评判模型。支持分类器(Classifier)和评分器(Grader)两大类评判方式，可用于评估AI

【Mistral AI Evals：一个用于运行Mistral AI发布的评估以及为流行学术基准测试提供标准化提示、解析和度量计算的代码库，支持多轮LL

正在拼命加载中

我是有底线的

没有更多的页面可以加载啦！