PaddleOCR 升级 LLM 就绪文档解析

#REPO GitHub Trending 2026.06.05

推荐指数 69.0 NO. 006 · 2026.06.05

Stars79,761

为什么值得看

百度飞桨开源的 OCR 工具包新增智能文档解析能力，可将 PDF 和图片转为结构化 JSON/Markdown，已被 Dify、RAGFlow 等主流 RAG 框架采用。做文档问答和 Agent 的工程师可直接接入，省去自研版面分析的坑。

Turn any PDF or image document into structured data for your AI. A powerful, lightweight OCR toolkit that bridges the gap between images/PDFs and LLMs. Supports 100+ languages.

媒体预览

编辑判断

文档解析是 RAG pipeline 里最容易被低估的瓶颈，很多团队直接用 PyPDF 或 unstructured 硬拆，结果表格错位、标题层级丢失，检索质量大打折扣。PaddleOCR 这次明确转向 LLM-ready 输出，说明社区终于意识到版面还原比纯文字提取更重要。

跟 Marker、MinerU 这些新工具比，PaddleOCR 的优势在中文复杂排版（古籍、发票、混排表格）和工程稳定性，70k+ stars 的社区积累意味着遇到问题大概率有人踩过坑。劣势是依赖 PaddlePaddle 生态，PyTorch 团队会有迁移成本。

如果你正在用 LangChain 的 PDF loader 做 RAG 且召回率上不去，建议拿 PaddleOCR 的 Markdown 输出替换一轮，重点看表格和多栏布局的拆分效果，这往往是向量检索失效的根因。

Star History

生态分析

Production

中文OCR+RAG文档解析基础设施，连接非结构化文档与LLM应用的关键中间件

独特价值：中文场景最优、飞桨全栈支持、与RAG/Agent生态深度集成

竞品：

tesseract-ocr/tesseract ★ 60.0k 传统OCR引擎，无深度学习，不支持版面分析

mindee/doctr ★ 5.0k 轻量文档理解，但中文支持和生态集成较弱

microsoft/unilm ★ 18.0k 布局LM系列，侧重学术，工程化程度低

查看原文 →