judges:一个轻量级的LLM评估库,提供多种预设的AI评判模型。支持分类器(Classifier)和评分器(Grader)两大类评判方式,可用于评估AI回答的事实准确性、幻觉检测、有害内容识别、查

  • 爱可可-爱生活
  • 2024-12-04 20:26:02
【judges:一个轻量级的LLM评估库,提供多种预设的AI评判模型。支持分类器(Classifier)和评分器(Grader)两大类评判方式,可用于评估AI回答的事实准确性、幻觉检测、有害内容识别、查询质量等多个维度。特色是可以组合多个评判模型形成陪审团(Jury),实现更全面的评估】
'A small library of LLM judges'
GitHub: github.com/quotient-ai/judges
AI评估 LLM工具 内容审核 AI安全
judges:一个轻量级的LLM评估库,提供多种预设的AI评判模型。支持分类器(Classifier)和评分器(Grader)两大类评判方式,可用于评估AI回答的事实准确性、幻觉检测、有害内容识别、查询质量等多个维度。特色是可以组合多个评判模型形成陪审团(Jury),实现更全面的评估