A Survey on Benchmarks...
- AMiner学术头条
- 2024-08-25 18:57:21
A Survey on Benchmarks of Multimodal Large Language Models
网页链接
本文对多模态大型语言模型(MLLM)的基准测试进行了全面的回顾,这些模型在学术和工业领域越来越受欢迎,特别是在视觉问题回答、视觉感知、理解和推理等各种应用中表现出卓越的性能。文章重点关注了MLLM的180个基准测试和评估,包括感知与理解、认知与推理、特定领域、关键能力以及其他模态。最后,讨论了当前对MLLM评估方法的限制,并探讨了有前景的未来发展方向。文章的主要观点是,评估应该被视为支持MLLM发展的重要学科。更多详细信息,请访问我们的GitHub仓库:
网页链接
硕士论文
人工智能
大模型
博士

本文对多模态大型语言模型(MLLM)的基准测试进行了全面的回顾,这些模型在学术和工业领域越来越受欢迎,特别是在视觉问题回答、视觉感知、理解和推理等各种应用中表现出卓越的性能。文章重点关注了MLLM的180个基准测试和评估,包括感知与理解、认知与推理、特定领域、关键能力以及其他模态。最后,讨论了当前对MLLM评估方法的限制,并探讨了有前景的未来发展方向。文章的主要观点是,评估应该被视为支持MLLM发展的重要学科。更多详细信息,请访问我们的GitHub仓库:




