微软开源文件转 Markdown 神器
值得看指数 74.0 NO. 004 · 2026.05.29
Stars127,508
为什么值得看
MarkItDown 是微软开源的 Python 工具,可将 PDF、Word、PPT 等多种格式转换为结构化的 Markdown,保留标题、表格、列表等层级信息。对做 RAG 和 LLM 数据预处理的团队来说,这比传统纯文本抽取方案更适合直接喂给模型。
Python tool for converting files and office documents to Markdown.
编辑判断
做 RAG 的团队之前大多用 textract 或 PyPDF2 做文档解析,但这类工具输出的是扁平纯文本,丢失了大量结构信息,导致分块质量差、检索精度上不去。MarkItDown 的核心差异是把文档语义结构(heading 层级、表格行列关系)显式保留为 Markdown 语法,这对后续按语义分块和上下文召回非常关键。
跟 LlamaParse、Unstructured 这些商业/重方案比,MarkItDown 胜在零依赖、轻量、可嵌入现有管线,不需要调外部 API。如果你的文档类型以 Office 和 PDF 为主,且不想为解析环节引入复杂基础设施,这个工具值得替换掉现有的纯文本抽取链路。
Star History
生态分析
Production
微软官方推出的文档解析基础设施,RAG/LLM 预处理环节的标准化工具
独特价值:背靠微软生态,原生支持 Office 格式,结构化保留层级信息
竞品: