extract-to-md
SKILL.md
提取为 Markdown
适用场景
- 用户要求将网页或 PDF 内容整理成 Markdown 草稿。
- 文档存在错行、断段、乱码符号或摘要序号混乱。
- 需要先完成 Markdown 校对,再二次导出 PDF。
- 需要尽量贴近原 PDF 的图片位置与章节结构。
工作流程
1. 输入与提取
- 识别来源类型:网页导出 PDF、原生 PDF、复制文本。
- 提取正文文本、页面顺序、图片资源与坐标信息(若可用)。
- 记录源页码,供后续定位与核对。
2. 先清洗噪声
- 在做标点转换前,先去掉页面噪声,包括页眉页脚、时间戳、导航栏文本、孤立 URL、页码计数(如
x/y)。 - 这样可避免 URL 被误改或正文被误判。
3. 恢复段落
- 以版面间距为主依据,合并同段内错误换行。
- 段落之间通常保留空行,避免把相邻段误并成一段。
- 跨页首行若明显是续句则合并;若是标题样式则保持分段。
4. 构建 Markdown 结构
- 统一输出结构:报告标题页信息、摘要、正文。
- 摘要条目必须使用
1.、2.、3.的编号形式。 - 同一条摘要的换行内容应合并为一条,避免拆成两点。
5. 图片处理
- 将图片导出到独立目录(例如
xxx-assets/)。 - 图片按源文档页序与阅读顺序插入到 Markdown 对应位置。
6. 表格处理策略
- 表格结构清晰时,优先转为 Markdown 表格。
- 表格识别不稳时,改为「关键数据列表 + 原图」方案。
- 保留单位、数值与来源位置,确保可复核。
7. 套用风格偏好
- 结构修复后再处理标点和样式。
- 与风格相关的具体规则,按 references/style-profile-zh.md 执行。
- 注意 URL、邮箱、代码片段中的半角符号不要被误替换。
8. 交付前检查
- 摘要条目数与原文一致,且无误拆分。
- 小数点、编号句点与中英文混排格式正确。
- 加粗范围符合用户要求,不多加、不漏加。
- 图片链接可用,关键图表无缺失。
- 最终交付为一个可编辑
.md文件和一个图片目录。
交付规范
- 生成的脚本、临时中间文件、调试产物统一放在一个临时目录下(例如
tmp/)。 - 临时目录应与最终交付物分离,便于工作完成后整体清理删除。
Weekly Installs
5
Repository
kanlac/agent-steroidsGitHub Stars
2
First Seen
Feb 25, 2026
Security Audits
Installed on
codex5
mcpjam4
claude-code4
junie4
windsurf4
zencoder4