llm_aided_ocr，通过应用大型语言模型 (LLM)...

黄建同学
2024-08-26 06:31:33

llm_aided_ocr，通过应用大型语言模型 (LLM) 校正来增强扫描 PDF 的 Tesseract OCR 输出↓ai 程序员

项目：github.com/Dicklesworthstone/llm_aided_ocr

特点：
• PDF 到图像转换
• 使用 Tesseract 进行 OCR
• 使用 LLM（本地或基于 API）进行高级错误更正
• 智能文本分块，高效处理
• Markdown 格式选项
• 抑制页眉和页码（可选）
• 最终输出的质量评估
• 支持本地 LLM 和基于云的 API 提供商（OpenAI、Anthropic）
• 异步处理以提高性能
• 用于流程跟踪和调试的详细日志记录
• 用于本地 LLM 推理的 GPU 加速

ChatGPT