RAG里的分块非常重要...

  • 黄建同学
  • 2024-10-16 16:50:49
RAG里的分块非常重要,分块影响了RAG检索出来的块的内容,分块不正确容易导致上下文信息丢失,而影响了LLM回答的质量。 程序员rag

于是有种技术叫Late Chunking (后期分块)↓这是一种改进长上下文嵌入模型中上下文保存的技术。

> 传统的分块方法通常用于检索增强生成 (RAG),在将长文本分成较小的块时可能会丢失关键的上下文。

> 后期分块首先处理整个文本,然后生成块嵌入,从而保持跨块的上下文。这种方法通过保留分散在多个文本段中的信息,提高了检索准确性,尤其是对于较长的文档。

论文:arxiv.org/abs/2409.04701
Blog:
Part I. jina.ai/news/late-chunking-in-long-context-embedding-models/
Part II. jina.ai/news/what-late-chunking-really-is-and-what-its-not-part-ii/

ChatGPT
RAG里的分块非常重要...RAG里的分块非常重要...RAG里的分块非常重要...RAG里的分块非常重要...RAG里的分块非常重要...RAG里的分块非常重要...RAG里的分块非常重要...RAG里的分块非常重要...RAG里的分块非常重要...RAG里的分块非常重要...