新文档搜索开源模型

  • 量子位
  • 2025-01-14 13:11:59
新文档搜索开源模型

全新文档搜索模型来了,而且还是开源的!

LlamaIndex 推出了 vdr-2b-multi-v1 模型,开创性地支持多语言视觉文档检索功能。

简单来说,这意味着你可以通过截图直接进行文档检索,而不再局限于传统的文字搜索。

该模型支持德语、法语、意大利语、西班牙语和英语,甚至可以用意大利语提出问题,检索德语文档,完全打破了语言壁垒。

与传统的 OCR(光学字符识别)、RAG(检索增强生成模型)、IDP(信息提取)等基于文本的检索方式不同,vdr-2b-multi-v1 避免了格式转换带来的信息丢失问题。

其核心原理在于高效的嵌入技术,通过将文档页面压缩为单一的向量表示,显著提高了搜索效率。

具体来说,其创新性主要体现在:

• 超大多语言数据集:基于 50 万对高质量查询-图像样本训练,是目前最大的开源视觉文档检索数据集。每页文档通过精细分析后,标注为文本、视觉或混合类型,确保多样性与高覆盖率。

• Matryoshka Representation Learning (MRL):嵌入向量被缩减至三分之一大小,几乎没有损失质量(保留了 98% 性能),大大减少了存储和检索的成本。

• 跨语言检索:经过优化,vdr-2b-multi-v1 能够处理真实世界场景中的跨语言检索。例如,用意大利语搜索德语文档的效果远优于基线模型,平均提升了 2.3%。

• 低显存与快速推理:相比基线模型,vdr-2b-multi-v1 减少了 70% 的图像处理 token 数量,仅用 768 个 tokens 就能实现更高效的检索。

除此之外,vdr-2b-multi-v1 的训练数据和评估数据集(vdr-multilingual-test)都完全开放。

感兴趣的小伙伴可以点击:网页链接
新文档搜索开源模型新文档搜索开源模型新文档搜索开源模型