PDF解析器登顶基准测试

#REPO GitHub Trending 2026.06.04

推荐指数 67.0 NO. 004 · 2026.06.04

Stars23,197

为什么值得看

OpenDataLoader PDF 是面向 AI 数据提取的开源 PDF 解析器，支持 Markdown、JSON、HTML 输出，在 200 份真实 PDF 基准中综合准确率 0.907 排名第一。内置 OCR 支持 80+ 语言扫描件，提供确定性本地模式与 AI 混合模式双引擎。

PDF Parser for AI-ready data. Automate PDF accessibility. Open-source.

媒体预览

编辑判断

做 RAG 和知识库的团队之前处理 PDF 大多是 PyPDF2 + pytesseract 的拼接方案，表格和复杂排版是老大难。这个工具在表格准确率上跑到 0.928，直接对标的是 Marker、Unstructured 和 Azure Document Intelligence 的付费 API。

它的混合模式设计很聪明：简单页面走本地确定性解析省钱，复杂页面再走 AI，比纯云端方案成本低一截。如果你正在用 LlamaIndex 或 LangChain 搭文档管线，值得把它替换进去跑一轮对比测试，特别是金融研报、学术论文这类表格密集场景。

Star History

生态分析

Production

AI-ready PDF解析器标杆，专注RAG数据提取与PDF无障碍自动化

独特价值：双引擎架构+200份真实基准0.907准确率，兼顾确定性本地与AI混合解析

查看原文 →