新文档搜索开源模型
- 量子位
- 2025-01-14 13:11:59
新文档搜索开源模型
全新文档搜索模型来了,而且还是开源的!
LlamaIndex 推出了 vdr-2b-multi-v1 模型,开创性地支持多语言视觉文档检索功能。
简单来说,这意味着你可以通过截图直接进行文档检索,而不再局限于传统的文字搜索。
该模型支持德语、法语、意大利语、西班牙语和英语,甚至可以用意大利语提出问题,检索德语文档,完全打破了语言壁垒。
与传统的 OCR(光学字符识别)、RAG(检索增强生成模型)、IDP(信息提取)等基于文本的检索方式不同,vdr-2b-multi-v1 避免了格式转换带来的信息丢失问题。
其核心原理在于高效的嵌入技术,通过将文档页面压缩为单一的向量表示,显著提高了搜索效率。
具体来说,其创新性主要体现在:
• 超大多语言数据集:基于 50 万对高质量查询-图像样本训练,是目前最大的开源视觉文档检索数据集。每页文档通过精细分析后,标注为文本、视觉或混合类型,确保多样性与高覆盖率。
• Matryoshka Representation Learning (MRL):嵌入向量被缩减至三分之一大小,几乎没有损失质量(保留了 98% 性能),大大减少了存储和检索的成本。
• 跨语言检索:经过优化,vdr-2b-multi-v1 能够处理真实世界场景中的跨语言检索。例如,用意大利语搜索德语文档的效果远优于基线模型,平均提升了 2.3%。
• 低显存与快速推理:相比基线模型,vdr-2b-multi-v1 减少了 70% 的图像处理 token 数量,仅用 768 个 tokens 就能实现更高效的检索。
除此之外,vdr-2b-multi-v1 的训练数据和评估数据集(vdr-multilingual-test)都完全开放。
感兴趣的小伙伴可以点击:
网页链接
全新文档搜索模型来了,而且还是开源的!
LlamaIndex 推出了 vdr-2b-multi-v1 模型,开创性地支持多语言视觉文档检索功能。
简单来说,这意味着你可以通过截图直接进行文档检索,而不再局限于传统的文字搜索。
该模型支持德语、法语、意大利语、西班牙语和英语,甚至可以用意大利语提出问题,检索德语文档,完全打破了语言壁垒。
与传统的 OCR(光学字符识别)、RAG(检索增强生成模型)、IDP(信息提取)等基于文本的检索方式不同,vdr-2b-multi-v1 避免了格式转换带来的信息丢失问题。
其核心原理在于高效的嵌入技术,通过将文档页面压缩为单一的向量表示,显著提高了搜索效率。
具体来说,其创新性主要体现在:
• 超大多语言数据集:基于 50 万对高质量查询-图像样本训练,是目前最大的开源视觉文档检索数据集。每页文档通过精细分析后,标注为文本、视觉或混合类型,确保多样性与高覆盖率。
• Matryoshka Representation Learning (MRL):嵌入向量被缩减至三分之一大小,几乎没有损失质量(保留了 98% 性能),大大减少了存储和检索的成本。
• 跨语言检索:经过优化,vdr-2b-multi-v1 能够处理真实世界场景中的跨语言检索。例如,用意大利语搜索德语文档的效果远优于基线模型,平均提升了 2.3%。
• 低显存与快速推理:相比基线模型,vdr-2b-multi-v1 减少了 70% 的图像处理 token 数量,仅用 768 个 tokens 就能实现更高效的检索。
除此之外,vdr-2b-multi-v1 的训练数据和评估数据集(vdr-multilingual-test)都完全开放。
感兴趣的小伙伴可以点击:
