A Survey on Benchmarks...

AMiner学术头条
2024-08-25 18:57:21

A Survey on Benchmarks of Multimodal Large Language Models网页链接
本文对多模态大型语言模型（MLLM）的基准测试进行了全面的回顾，这些模型在学术和工业领域越来越受欢迎，特别是在视觉问题回答、视觉感知、理解和推理等各种应用中表现出卓越的性能。文章重点关注了MLLM的180个基准测试和评估，包括感知与理解、认知与推理、特定领域、关键能力以及其他模态。最后，讨论了当前对MLLM评估方法的限制，并探讨了有前景的未来发展方向。文章的主要观点是，评估应该被视为支持MLLM发展的重要学科。更多详细信息，请访问我们的GitHub仓库：网页链接
硕士论文人工智能大模型博士