BALROG:一个创新的基准测试框架,专门评估大语言模型(LLM)和视觉语言模型(VLM)在游戏环境中的智能Agent能力。支持本地部署和主流AI API集成,提供完整的评估工具集,可用于测试模型在长 爱可可-爱生活 2024-11-27 01:22:53 【BALROG:一个创新的基准测试框架,专门评估大语言模型(LLM)和视觉语言模型(VLM)在游戏环境中的智能Agent能力。支持本地部署和主流AI API集成,提供完整的评估工具集,可用于测试模型在长期交互任务中的推理表现】'Benchmarking Agentic LLM and VLM Reasoning On Games'GitHub: github.com/balrog-ai/BALROGAI基准测试 LLM评估 游戏AI 强化学习