近日,研究人员发布了一个名为Long...

  • 32号科技所
  • 2025-01-10 09:19:26
近日,研究人员发布了一个名为LongDocURL的新基准数据集,用于全面评估模型在多模态和长文档理解方面的能力。

该数据集包含20个细分子任务,覆盖理解、数值推理和跨元素定位三种主任务,共涉及2,325个问答对,涵盖超过33,000页文档。测试结果显示,目前最先进的模型GPT-4o仅得64.5分,未能达到及格线。

研究团队指出,现有的文档理解基准主要针对单页文档,而LongDocURL专注于更长的文档,能够更好地评估模型处理复杂文档和长上下文的能力。此外,团队还分析了使用文本输入和图像输入对模型性能的影响,发现图像输入有助于改善某些模型的表现。ai创造营
近日,研究人员发布了一个名为Long...近日,研究人员发布了一个名为Long...近日,研究人员发布了一个名为Long...