【Awesome-LLM-as-a-judge:一个关于LLM作为评判器的综合资料库,收集整理了大语言模型在评判任务中的应用研究,涵盖了帮助性、无害性、可靠性、相关性、可行性等多个评估维度,以及相关方法论和评估基准】
'From Generation to Judgment: Opportunities and Challenges of LLM-as-a-judge'
GitHub: github.com/llm-as-a-judge/Awesome-LLM-as-a-judge
LLM评估 AI评判 人工智能 自然语言处理