Extractous:高性能非结构化数据提取工具,使用Rust开发并提供多语言绑定,支持PDF、Word、HTML等多种文档格式的内容和元数据提取。相比同类工具unstructured-io速度快25
- 爱可可-爱生活
- 2024-11-22 15:50:05
【Extractous:高性能非结构化数据提取工具,使用Rust开发并提供多语言绑定,支持PDF、Word、HTML等多种文档格式的内容和元数据提取。相比同类工具unstructured-io速度快25倍,内存占用低11倍。集成Apache Tika和Tesseract OCR,提供原生执行性能,无需外部服务和API】
'Fast and efficient unstructured data extraction. Written in Rust with bindings for many languages.'
GitHub: github.com/yobix-ai/extractous
数据提取 文档解析 OCR Rust开发
'Fast and efficient unstructured data extraction. Written in Rust with bindings for many languages.'
GitHub: github.com/yobix-ai/extractous
数据提取 文档解析 OCR Rust开发