BALROG：一个创新的基准测试框架，专门评估大语言模型(LLM)和视觉语言模型(VLM)在游戏环境中的智能Agent能力。支持本地部署和主流AI API集成，提供完整的评估工具集，可用于测试模型在长

爱可可-爱生活
2024-11-27 01:22:53

【BALROG：一个创新的基准测试框架，专门评估大语言模型(LLM)和视觉语言模型(VLM)在游戏环境中的智能Agent能力。支持本地部署和主流AI API集成，提供完整的评估工具集，可用于测试模型在长期交互任务中的推理表现】
'Benchmarking Agentic LLM and VLM Reasoning On Games'
GitHub: github.com/balrog-ai/BALROG
AI基准测试 LLM评估游戏AI 强化学习