judges：一个轻量级的LLM评估库，提供多种预设的AI评判模型。支持分类器(Classifier)和评分器(Grader)两大类评判方式，可用于评估AI回答的事实准确性、幻觉检测、有害内容识别、查

爱可可-爱生活
2024-12-04 20:26:02

【judges：一个轻量级的LLM评估库，提供多种预设的AI评判模型。支持分类器(Classifier)和评分器(Grader)两大类评判方式，可用于评估AI回答的事实准确性、幻觉检测、有害内容识别、查询质量等多个维度。特色是可以组合多个评判模型形成陪审团(Jury)，实现更全面的评估】
'A small library of LLM judges'
GitHub: github.com/quotient-ai/judges
AI评估 LLM工具内容审核 AI安全