LLM评估

Awesome-LLM-as-a-judge：一个关于LLM作为评判器的综合资料库，收集整理了大语言模型在评判任务中的应用研究，涵盖了帮助性、无害性、可靠性、相关性、可行性等多个评估维度，以及相关方法

Awesome-LLM-as-a-judge：一个关于LLM作为评判器的综合资料库，收集整理了大语言模型在评判任务中的应用研究，涵盖了帮助性、无害性、可靠性、相关性、可行性等多个评估维度，以及相关方法

【Awesome-LLM-as-a-judge：一个关于LLM作为评判器的综合资料库，收集整理了大语言模型在评判任务中的应用研究，涵盖了帮助性、无害性

2024-12-05 浏览详情

BALROG：一个创新的基准测试框架，专门评估大语言模型(LLM)和视觉语言模型(VLM)在游戏环境中的智能Agent能力。支持本地部署和主流AI API集成，提供完整的评估工具集，可用于测试模型在长

BALROG：一个创新的基准测试框架，专门评估大语言模型(LLM)和视觉语言模型(VLM)在游戏环境中的智能Agent能力。支持本地部署和主流AI API集成，提供完整的评估工具集，可用于测试模型在长

【BALROG：一个创新的基准测试框架，专门评估大语言模型(LLM)和视觉语言模型(VLM)在游戏环境中的智能Agent能力。支持本地部署和主流A

2024-11-27 浏览详情

Preference Proxy Evaluations (PPE)：一个用于评估奖励模型和LLM裁判的基准测试，帮助在大规模LLM训练和评估中复制人类偏好，包含真实的人类偏好数据和可验证的正确性偏好

Preference Proxy Evaluations (PPE)：一个用于评估奖励模型和LLM裁判的基准测试，帮助在大规模LLM训练和评估中复制人类偏好，包含真实的人类偏好数据和可验证的正确性偏好

【Preference Proxy Evaluations (PPE)：一个用于评估奖励模型和LLM裁判的基准测试，帮助在大规模LLM训练和评估中复制人类偏好，包含真

2024-10-30 浏览详情

正在拼命加载中

我是有底线的

没有更多的页面可以加载啦！