llama-chunk:一个基于Llama-70B的创新文本分块策略,针对RAG应用优化。其特色是使用中文字符"段"作为特殊标记,让大模型自动进行语义分块,无需使用正则表达式或人工

  • 爱可可-爱生活
  • 2024-12-09 17:03:25
【llama-chunk:一个基于Llama-70B的创新文本分块策略,针对RAG应用优化。其特色是使用中文字符"段"作为特殊标记,让大模型自动进行语义分块,无需使用正则表达式或人工规则。经测试在法律文本基准上表现优于传统naive方法和语义分块方法,具有更高的检索率和信噪比】
'A new chunking strategy developed by ZeroEntropy for general semantic chunking using Llama-70B'
GitHub: github.com/ZeroEntropy-AI/llama-chunk
RAG系统 文本分块 大语言模型 信息检索
llama-chunk:一个基于Llama-70B的创新文本分块策略,针对RAG应用优化。其特色是使用中文字符