Extractous:一个高性能的非结构化数据提取工具,使用Rust编写并支持多种编程语言。特色是速度快(比unstructured-io快25倍)、内存占用低、支持本地运行,无需依赖外部服务。支持P

  • 爱可可-爱生活
  • 2024-12-05 23:37:22
【Extractous:一个高性能的非结构化数据提取工具,使用Rust编写并支持多种编程语言。特色是速度快(比unstructured-io快25倍)、内存占用低、支持本地运行,无需依赖外部服务。支持PDF、Word、HTML等多种文档格式的文本和元数据提取,集成OCR功能,适用于数据处理管道和RAG应用场景】

'Fast and efficient unstructured data extraction. Written in Rust with bindings for many languages'

GitHub: github.com/yobix-ai/extractous

数据提取Rust开发文档处理开源工具
Extractous:一个高性能的非结构化数据提取工具,使用Rust编写并支持多种编程语言。特色是速度快(比unstructured-io快25倍)、内存占用低、支持本地运行,无需依赖外部服务。支持PDF、Word、HTML等多种文档格式的文本和元数据提取,集成OCR功能,适用于数据处理管道和RAG应用场景Extractous:一个高性能的非结构化数据提取工具,使用Rust编写并支持多种编程语言。特色是速度快(比unstructured-io快25倍)、内存占用低、支持本地运行,无需依赖外部服务。支持PDF、Word、HTML等多种文档格式的文本和元数据提取,集成OCR功能,适用于数据处理管道和RAG应用场景