【PhysGame:用于评估物理常识理解在游戏视频中的基准数据集,提供了物理知识增强的大型视频语言模型】PhysGame Benchmark for Physi
2024-12-31浏览详情
【LLM Confabulation Benchmark:大型语言模型在面对基于文档的误导性问题时,如何减少产生不存在答案(幻觉或虚构)的能力评估工具,特别
2024-12-22浏览详情
【judges:一个轻量级的LLM评估库,提供多种预设的AI评判模型。支持分类器(Classifier)和评分器(Grader)两大类评判方式,可用于评估AI
2024-12-04浏览详情
【Mistral AI Evals:一个用于运行Mistral AI发布的评估以及为流行学术基准测试提供标准化提示、解析和度量计算的代码库,支持多轮LL
2024-11-19浏览详情
正在拼命加载中
我是有底线的
没有更多的页面可以加载啦!