微软开源神器 MarkItDown:一行命令把 PDF、Word、PPT 转成 Markdown

微软开源神器 MarkItDown:一行命令把 PDF、Word、PPT 转成 Markdown

本文介绍 GitHub 本周热门项目 Microsoft MarkItDown109,881 ⭐,本周新增 15,790 星。


一句话总结

MarkItDown 是微软开源的一个 Python 工具,一行命令就能把 PDF、Word、PPT、Excel、图片、音频、HTML、YouTube 链接等各种格式文件转成 Markdown 格式。对搞 AI、做大模型数据处理的人来说,这是刚需。


为什么这个工具突然火了?

两个原因:

1. 大模型需要 Markdown —— GPT-4o 等大模型原生"懂" Markdown,用 Markdown 喂给 LLM 比喂纯文本或 HTML 更省 token,理解也更好

2. MCP 协议加持 —— 最近 MarkItDown 新增了 MCP(Model Context Protocol)服务器,可以直接接入 Claude Desktop 等 LLM 应用,让 AI 帮你自动处理文档


它能处理哪些格式?

格式说明
PDF保留标题、段落、列表等结构
Word (.docx)提取文字和格式
PowerPoint (.pptx)幻灯片内容转 Markdown
Excel (.xlsx)表格完美转换
图片提取 EXIF 元数据 + OCR 文字识别
音频提取元数据 + 语音转文字
HTML网页转 Markdown
CSV / JSON / XML结构化数据转 Markdown
ZIP自动解压并逐个转换
YouTube 链接提取视频字幕/转录
EPUB电子书转换

怎么用?

安装

pip install 'markitdown[all]'

命令行 —— 一行搞定

# 把 PDF 转成 Markdown,输出到终端
markitdown path-to-file.pdf

# 输出到文件
markitdown path-to-file.pdf -o output.md

# 管道模式
cat document.docx | markitdown

Python 代码调用

from markitdown import MarkItDown

md = MarkItDown()
result = md.convert("test.xlsx")
print(result.text_content)

几个亮点

1. 按需安装,不臃肿

# 只装 PDF、Word、PPT 的支持
pip install 'markitdown[pdf, docx, pptx]'

2. OCR 插件

配合 markitdown-ocr 插件,可以用 LLM Vision 识别文档里嵌入图片中的文字:

from markitdown import MarkItDown
from openai import OpenAI

md = MarkItDown(
    enable_plugins=True,
    llm_client=OpenAI(),
    llm_model="gpt-4o",
)
result = md.convert("document_with_images.pdf")

3. MCP 集成

最新支持 MCP 协议,可以让 Claude Desktop 等 AI 助手直接调用 MarkItDown 处理文档。


适用场景


一句话评价

如果你经常需要在不同文档格式之间折腾,或者在做 AI 相关的数据处理,MarkItDown 值得装一个。安装简单、格式覆盖全、和大模型生态天然契合,10 万星实至名归。


项目地址github.com/microsoft/markitdown
安装pip install 'markitdown[all]'
许可证:MIT

/*]]>*/