PaddleOCR 升级 LLM 就绪文档解析
值得看指数 69.0 NO. 006 · 2026.06.05
Stars79,761
为什么值得看
百度飞桨开源的 OCR 工具包新增智能文档解析能力,可将 PDF 和图片转为结构化 JSON/Markdown,已被 Dify、RAGFlow 等主流 RAG 框架采用。做文档问答和 Agent 的工程师可直接接入,省去自研版面分析的坑。
Turn any PDF or image document into structured data for your AI. A powerful, lightweight OCR toolkit that bridges the gap between images/PDFs and LLMs. Supports 100+ languages.
媒体预览
编辑判断
文档解析是 RAG pipeline 里最容易被低估的瓶颈,很多团队直接用 PyPDF 或 unstructured 硬拆,结果表格错位、标题层级丢失,检索质量大打折扣。PaddleOCR 这次明确转向 LLM-ready 输出,说明社区终于意识到版面还原比纯文字提取更重要。
跟 Marker、MinerU 这些新工具比,PaddleOCR 的优势在中文复杂排版(古籍、发票、混排表格)和工程稳定性,70k+ stars 的社区积累意味着遇到问题大概率有人踩过坑。劣势是依赖 PaddlePaddle 生态,PyTorch 团队会有迁移成本。
如果你正在用 LangChain 的 PDF loader 做 RAG 且召回率上不去,建议拿 PaddleOCR 的 Markdown 输出替换一轮,重点看表格和多栏布局的拆分效果,这往往是向量检索失效的根因。
Star History
生态分析
Production
中文OCR+RAG文档解析基础设施,连接非结构化文档与LLM应用的关键中间件
独特价值:中文场景最优、飞桨全栈支持、与RAG/Agent生态深度集成
竞品: