PhysGame:用于评估物理常识理解在游戏视频中的基准数据集,提供了物理知识增强的大型视频语言模型

PhysGame:用于评估物理常识理解在游戏视频中的基准数据集,提供了物理知识增强的大型视频语言模型

【PhysGame:用于评估物理常识理解在游戏视频中的基准数据集,提供了物理知识增强的大型视频语言模型】PhysGame Benchmark for Physi

2024-12-31浏览详情

LLM Confabulation Benchmark:大型语言模型在面对基于文档的误导性问题时,如何减少产生不存在答案(幻觉或虚构)的能力评估工具,特别关注于检索增强型生成模型(RAG)

LLM Confabulation Benchmark:大型语言模型在面对基于文档的误导性问题时,如何减少产生不存在答案(幻觉或虚构)的能力评估工具,特别关注于检索增强型生成模型(RAG)

【LLM Confabulation Benchmark:大型语言模型在面对基于文档的误导性问题时,如何减少产生不存在答案(幻觉或虚构)的能力评估工具,特别

2024-12-22浏览详情

judges:一个轻量级的LLM评估库,提供多种预设的AI评判模型。支持分类器(Classifier)和评分器(Grader)两大类评判方式,可用于评估AI回答的事实准确性、幻觉检测、有害内容识别、查

judges:一个轻量级的LLM评估库,提供多种预设的AI评判模型。支持分类器(Classifier)和评分器(Grader)两大类评判方式,可用于评估AI回答的事实准确性、幻觉检测、有害内容识别、查

【judges:一个轻量级的LLM评估库,提供多种预设的AI评判模型。支持分类器(Classifier)和评分器(Grader)两大类评判方式,可用于评估AI

2024-12-04浏览详情

Mistral AI Evals:一个用于运行Mistral AI发布的评估以及为流行学术基准测试提供标准化提示、解析和度量计算的代码库,支持多轮LLM-as-a-judge评估任务

Mistral AI Evals:一个用于运行Mistral AI发布的评估以及为流行学术基准测试提供标准化提示、解析和度量计算的代码库,支持多轮LLM-as-a-judge评估任务

【Mistral AI Evals:一个用于运行Mistral AI发布的评估以及为流行学术基准测试提供标准化提示、解析和度量计算的代码库,支持多轮LL

2024-11-19浏览详情

正在拼命加载中

我是有底线的

没有更多的页面可以加载啦!