近日，研究人员发布了一个名为Long...

32号科技所
2025-01-10 09:19:26

近日，研究人员发布了一个名为LongDocURL的新基准数据集，用于全面评估模型在多模态和长文档理解方面的能力。

该数据集包含20个细分子任务，覆盖理解、数值推理和跨元素定位三种主任务，共涉及2,325个问答对，涵盖超过33,000页文档。测试结果显示，目前最先进的模型GPT-4o仅得64.5分，未能达到及格线。

研究团队指出，现有的文档理解基准主要针对单页文档，而LongDocURL专注于更长的文档，能够更好地评估模型处理复杂文档和长上下文的能力。此外，团队还分析了使用文本输入和图像输入对模型性能的影响，发现图像输入有助于改善某些模型的表现。ai创造营