skills/kanlac/agent-steroids/extract-to-md

extract-to-md

SKILL.md

提取为 Markdown

适用场景

用户要求将网页或 PDF 内容整理成 Markdown 草稿。
文档存在错行、断段、乱码符号或摘要序号混乱。
需要先完成 Markdown 校对，再二次导出 PDF。
需要尽量贴近原 PDF 的图片位置与章节结构。

工作流程

1. 输入与提取

识别来源类型：网页导出 PDF、原生 PDF、复制文本。
提取正文文本、页面顺序、图片资源与坐标信息（若可用）。
记录源页码，供后续定位与核对。

2. 先清洗噪声

在做标点转换前，先去掉页面噪声，包括页眉页脚、时间戳、导航栏文本、孤立 URL、页码计数（如 x/y）。
这样可避免 URL 被误改或正文被误判。

3. 恢复段落

以版面间距为主依据，合并同段内错误换行。
段落之间通常保留空行，避免把相邻段误并成一段。
跨页首行若明显是续句则合并；若是标题样式则保持分段。

4. 构建 Markdown 结构

统一输出结构：报告标题页信息、摘要、正文。
摘要条目必须使用 1.、2.、3. 的编号形式。
同一条摘要的换行内容应合并为一条，避免拆成两点。

5. 图片处理

将图片导出到独立目录（例如 xxx-assets/）。
图片按源文档页序与阅读顺序插入到 Markdown 对应位置。

6. 表格处理策略

表格结构清晰时，优先转为 Markdown 表格。
表格识别不稳时，改为「关键数据列表 + 原图」方案。
保留单位、数值与来源位置，确保可复核。

7. 套用风格偏好

结构修复后再处理标点和样式。
与风格相关的具体规则，按 references/style-profile-zh.md 执行。
注意 URL、邮箱、代码片段中的半角符号不要被误替换。

8. 交付前检查

摘要条目数与原文一致，且无误拆分。
小数点、编号句点与中英文混排格式正确。
加粗范围符合用户要求，不多加、不漏加。
图片链接可用，关键图表无缺失。
最终交付为一个可编辑 .md 文件和一个图片目录。

交付规范

生成的脚本、临时中间文件、调试产物统一放在一个临时目录下（例如 tmp/）。
临时目录应与最终交付物分离，便于工作完成后整体清理删除。

Weekly Installs

5

Repository

kanlac/agent-steroids

GitHub Stars

2

First Seen

Feb 25, 2026

Security Audits

Gen Agent Trust HubPass

Installed on

codex5

mcpjam4

claude-code4

junie4

windsurf4

zencoder4