新文档搜索开源模型

量子位
2025-01-14 13:11:59

新文档搜索开源模型

全新文档搜索模型来了，而且还是开源的！

LlamaIndex 推出了 vdr-2b-multi-v1 模型，开创性地支持多语言视觉文档检索功能。

简单来说，这意味着你可以通过截图直接进行文档检索，而不再局限于传统的文字搜索。

该模型支持德语、法语、意大利语、西班牙语和英语，甚至可以用意大利语提出问题，检索德语文档，完全打破了语言壁垒。

与传统的 OCR（光学字符识别）、RAG（检索增强生成模型）、IDP（信息提取）等基于文本的检索方式不同，vdr-2b-multi-v1 避免了格式转换带来的信息丢失问题。

其核心原理在于高效的嵌入技术，通过将文档页面压缩为单一的向量表示，显著提高了搜索效率。

具体来说，其创新性主要体现在：

• 超大多语言数据集：基于 50 万对高质量查询-图像样本训练，是目前最大的开源视觉文档检索数据集。每页文档通过精细分析后，标注为文本、视觉或混合类型，确保多样性与高覆盖率。

• Matryoshka Representation Learning (MRL)：嵌入向量被缩减至三分之一大小，几乎没有损失质量（保留了 98% 性能），大大减少了存储和检索的成本。

• 跨语言检索：经过优化，vdr-2b-multi-v1 能够处理真实世界场景中的跨语言检索。例如，用意大利语搜索德语文档的效果远优于基线模型，平均提升了 2.3%。

• 低显存与快速推理：相比基线模型，vdr-2b-multi-v1 减少了 70% 的图像处理 token 数量，仅用 768 个 tokens 就能实现更高效的检索。

除此之外，vdr-2b-multi-v1 的训练数据和评估数据集（vdr-multilingual-test）都完全开放。

感兴趣的小伙伴可以点击：网页链接