mineru-pdf

SKILL.md

MinerU PDF 解析

本地解析 PDF 文档为结构化 Markdown 或 JSON,保留标题层级、表格、列表等结构。CPU 运行,数据不出本机。

使用场景

  • 用户说「帮我把这个 PDF 转成 Markdown」「提取这个 PDF 的内容」
  • 需要从 PDF 中提取结构化文本用于后续分析
  • 扫描件 PDF 需要 OCR 提取文字(配合 OCR 类 Skill)
  • 批量处理多个 PDF 文件

与其他 PDF 处理 Skill 的区别

工具 擅长 局限
nano-pdf 简单文本提取、PDF 元数据 不保留结构
pdf-toolkit 合并/拆分/加密/水印 不做内容解析
mineru-pdf 结构化解析(标题/表格/列表) 安装包较大

优先使用 mineru-pdf 做内容提取,pdf-toolkit 做文件操作。

执行方式

安装

pip install magic-pdf

基本用法

magic-pdf -p /path/to/document.pdf -o /path/to/output/ -m auto

参数说明:

  • -p:输入 PDF 路径
  • -o:输出目录
  • -m:模式选择
    • auto:自动判断(推荐)
    • txt:纯文本 PDF
    • ocr:扫描件 PDF

Python API

from magic_pdf.data.data_reader_writer import FileBasedDataWriter, FileBasedDataReader
from magic_pdf.pipe.UNIPipe import UNIPipe

reader = FileBasedDataReader("")
writer = FileBasedDataWriter(output_dir)

pdf_bytes = reader.read(pdf_path)
pipe = UNIPipe(pdf_bytes, model_list=[], image_writer=writer)
pipe.pipe_classify()
pipe.pipe_analyze()
pipe.pipe_parse()
md_content = pipe.pipe_mk_markdown(image_dir, drop_mode="none")

输出内容

解析后在输出目录生成:

  • *.md:Markdown 格式的结构化内容
  • images/:提取的图片
  • *.json:结构化元数据

输出规范

  • 保留原文档的标题层级(H1-H6)
  • 表格转换为 Markdown 表格
  • 图片提取并以 ![](path) 引用
  • 页码标注在章节末尾
Weekly Installs
1
GitHub Stars
31
First Seen
10 days ago
Installed on
amp1
cline1
openclaw1
opencode1
cursor1
kimi-cli1