doc-importer
文档导入器(Doc Importer)
将本地文档(Obsidian、思源笔记、微信公众号 HTML、下载目录或任意目录)批量导入到 WPS 笔记。
快速开始
当前技能的笔记写入统一走笔记 Agent 工具;如需理解批量扫描和转换逻辑,可先读取本 Skill 自带脚本:
参考实现:
- read_file("scripts/scan_docs.py") # 目录扫描与来源识别
- read_file("scripts/import_to_wps.py") # 转换与导入主流程
实际写入:
- create_note
- get_note_outline
- batch_edit
- insert_image
- read_note / read_blocks
- search_notes
- sync_note
支持的文档来源
| 来源 | 说明 | 典型目录结构 |
|---|---|---|
| Obsidian Vault | 扫描 .md 文件,保留 wiki 链接、Callout、标签 | Vault/笔记名.md + attachments/ |
| 思源笔记 | 扫描 .sy 文件(JSON格式),提取 Block Tree | SiYuan/data/笔记本/文档.sy |
| 微信公众号 | 解析 原文.html(含富文本格式、内联样式) |
文章名/原文.html + 图片/ |
| 任意目录 | 用户指定路径,递归扫描子目录 | 任意 |
支持的文件格式
| 格式 | 转换方式 | 图片处理 | 富文本保留 |
|---|---|---|---|
.html |
BeautifulSoup 解析内联样式 | 本地图片 base64 | ✅ 颜色/粗体/标题 |
.md / .markdown |
直接解析,转 WPS XML | 本地图片 base64 | 基本格式 |
.pdf |
pdfplumber 提取文本 + pdfimages 提取图片 | 提取嵌入图片 | 标题推断 |
.docx |
pandoc 转 markdown,提取 word/media/ | 解包提取 | 基本格式 |
.pptx |
markitdown 提取文本 + 解包媒体 | 解包提取 | 幻灯片结构 |
.xlsx |
pandas 读取,转 WPS table | 不含图片 | 表格结构 |
.txt |
直接读取 | 不含图片 | 无 |
.sy |
JSON 解析思源 Block Tree | 提取 assets 图片 | 全部 |
WPS API 关键限制(必读)
在实际导入前,必须了解以下 WPS 笔记 API 的重要限制,否则会导致内容丢失或图片插入失败。
1. get_note_outline 默认只返回 100 个 block
get_note_outline 默认按分页视图返回 block,blocks 数组可能只覆盖前一部分内容,但 block_count 会返回真实总数。
影响:大文章(> 100 个 block)如果只靠首屏大纲查占位符,只能找到前一部分 block,后半段图片会丢失。
解决方案:先用 get_note_outline 拿首批 block,再用 read_blocks 续读:
def get_all_blocks(note_id):
"""翻页获取笔记全部 blocks"""
# 第一页用 get_note_outline(有 preview 字段)
r = get_note_outline(note_id=note_id)
data = r.get('data', {})
total = data.get('block_count', 0)
blocks = list(data.get('blocks', []))
last_id = blocks[-1]['id'] if blocks else None
# 超过首批范围时用 read_blocks 续读
while len(blocks) < total and last_id:
r2 = read_blocks(note_id=note_id, block_id=last_id, after=100)
new_blocks = (r2.get('data') or {}).get('blocks', [])
if not new_blocks:
break
blocks.extend(new_blocks)
last_id = new_blocks[-1]['id']
return blocks
get_note_outline返回的 block 常带preview字段;read_blocks更适合拿完整 XML 内容。
2. insert_image 在旧版 WPS 中只能插到前台笔记
旧版本(< 0.1.4):insert_image 的图片 fileID 绑定到当前 WPS 客户端 UI 中打开的笔记,即使传了 note_id 参数,图片也会错误地关联到前台笔记。
新版本(>= 0.1.4):已修复,insert_image 可以直接后台插图到任意笔记,无需切换前台。
处理策略:
- 先按后台插图能力执行;如果图片插错位置,再回退为“切到目标笔记后插图”
- 如果宿主或客户端仍表现为旧版行为,明确提示用户升级或手动切到目标笔记
- 插图后务必回读验收,不要假设成功
3. list_notes 返回大数据时要主动收敛范围
list_notes 一次返回的数据过大时,不适合拿来做全文去重或全量扫描判断。
解决方案:
- 去重优先用
search_notes按标题关键词搜索 - 浏览列表时主动分页或缩小筛选范围
- 不把一次大范围
list_notes当成唯一真相来源
4. anchor 失效导致内容静默丢失
连续调用 batch_edit 插入内容时,WPS 内部可能重新索引,导致前一次操作返回的 anchor_id 失效。如果不处理,后续内容会静默跳过,造成文章后半段内容丢失。
必须实现重试逻辑:
def do_insert(note_id, content, get_anchor_fn, max_retries=4):
"""带重试的内容插入,自动刷新 anchor"""
anchor = get_anchor_fn()
for attempt in range(max_retries):
if attempt > 0:
time.sleep(1.5 * attempt)
anchor = get_anchor_fn() # 重新获取最新 anchor
res = batch_edit(note_id, [{
'op': 'insert', 'anchor_id': anchor,
'position': 'after', 'content': content
}])
if res.get('ok') is not False:
anchor = get_anchor_fn()
return True
return False # 4次都失败才放弃
获取最新 anchor(最后一个 block):
def get_last_block_id(note_id):
r = get_note_outline(note_id=note_id)
blocks = (r.get('data') or {}).get('blocks', [])
return blocks[-1]['id'] if blocks else None
5. 批量写入的稳定参数
大量内容写入时,BATCH_SIZE(每次 batch_edit 的 block 数)建议设为 4,过大会增加 anchor 失效概率。
BATCH_SIZE = 4 # 不要超过 8,否则容易出现 anchor 失效
完整工作流
第一步:确定扫描目录
优先根据用户已给出的目录 / 文件线索判断来源类型,不足时再 ask_user 补最少必要信息:
优先识别这些常见来源线索:
- Obsidian Vault:`.md` 文件 + `attachments/` 或同类附件目录
- 思源笔记:`.sy` 文件 + `data/assets/`
- 微信公众号存档:`原文.html` + 图片目录 + `meta.json`
- 下载目录混合导入:PDF / DOCX / PPTX / XLSX / Markdown / HTML 混合存在
第二步:扫描文档列表
如需对照扫描规则,用 `read_file("scripts/scan_docs.py")` 查看来源识别和输出字段约定;
整理后的清单至少要包含路径、标题、时间、格式、图片数和预计 block 数。
输出 JSON 格式:
{
"source_type": "wechat_mp",
"root_path": "/Users/xxx/Documents/articles",
"files": [
{
"path": "/Users/xxx/Documents/articles/文章名/原文.html",
"rel_path": "文章名/原文.html",
"title": "文章标题",
"publish_time": "2025-04-21 18:30",
"size_bytes": 204800,
"modified": "2025-04-22T10:00:00",
"format": "html",
"estimated_images": 12,
"estimated_blocks": 180
}
],
"total": 71,
"formats": {"html": 71}
}
estimated_blocks帮助预判是否会超过 100 block,提前提示用户。
第三步:展示文件清单,询问选择
扫描到 71 个文件:
- HTML: 71 个
文件列表:
1. AutoGLM 发布之后,如今国产大模型终于长出了手。 (2025-03-31, 12张图)
2. 你可能看不懂扣子空间为什么重要… (2025-04-21, 17张图)
...(超过20个时截断,告知总数)
请问你想如何导入?
[A] 全部导入(71个文件)
[B] 手动选择(输入文件编号,如:1,3,5-10)
[S] 跳过已有标题的笔记(根据笔记标题去重)
第四步:去重检测
导入前通过标题检查 WPS 笔记中是否已存在同名笔记。
注意:不要把 list_notes 当成去重主入口,改用 search_notes 按标题关键词搜索:
def check_exists(title):
r = search_notes(keyword=title[:20], limit=5)
notes = (r.get('data') or {}).get('notes', [])
return next((n for n in notes if n['title'] == title), None)
发现重复时询问用户:
发现以下笔记在 WPS 中已存在:
- 《AutoGLM 发布之后…》(最后更新:2025-05-01)
如何处理?
[O] 覆盖 [S] 跳过 [A] 追加 [RA] 对所有冲突应用相同策略
第五步:转换并导入
推荐流程(以 HTML 富文本为例):
# 1. 解析 HTML,提取内容段落和图片
segments = html_to_segments(html_path, img_dir)
# segments 格式:[('xml', '<p>文字</p>'), ('img', Path('图片/image_001.jpg')), ...]
# 2. 创建笔记
note_id = create_note(title)
# 3. 写入标题行 + meta 行(时间、标签)
write_header(note_id, title, publish_time, tag)
# 4. 批量写入正文(图片先插占位符)
write_content_with_placeholders(note_id, segments)
# 5. 翻页查找所有占位符 block_id(用 get_all_blocks)
ph_map = find_placeholders(note_id)
# 6. 逐个插入真实图片,替换占位符
for idx, img_path in img_list:
insert_image(note_id, ph_map[idx]['block_id'], img_path)
delete_placeholder(note_id, ph_map[idx]['block_id'])
Meta 行格式(根据来源类型灵活调整):
# 微信公众号:简洁的时间 + 标签
f'<p>{publish_time} | <tag id="{tag_id}">#推文</tag></p>'
# 通用文档:完整 meta blockquote
"""
<blockquote>
<p>📄 <strong>来源</strong>:{rel_path}</p>
<p>🕒 <strong>修改时间</strong>:{modified_time}</p>
<p>🔄 <strong>导入时间</strong>:{import_time}</p>
</blockquote>
"""
第六步:进度报告
[3/71] AutoGLM 发布之后…
解析完成: 95 段文字, 12 张图片
✓ 创建笔记: 501435173515
✓ 文字写入完成
✓ 图片插入: 12/12
用时: 8.3s
进度:████████░░░░ 42% (30/71) 预计剩余 ~12 分钟
转换脚本参考(需要查看实现时)
优先阅读这些文件来理解不同来源的导入逻辑:
- read_file("scripts/import_to_wps.py") # 主导入流程、去重、图片插入
- read_file("scripts/scan_docs.py") # 目录扫描、来源判断、筛选
- read_file("references/conversion-guide.md") # 格式映射细节
笔记工具逐步写入(需要手动接管时)
# 1. 创建笔记
create_note(title="文档标题")
# 2. 获取初始 block ID
get_note_outline(note_id=note_id)
# 3. 写入内容(分批,每批 4 个 block)
batch_edit(note_id=note_id, operations=[
{"op": "replace", "block_id": first_block_id, "content": "<h1>标题</h1>"},
{"op": "insert", "anchor_id": first_block_id, "position": "after",
"content": "<p>2025-04-21 18:30 | <tag>#推文</tag></p>"},
])
# 4. 插入图片(新版 WPS 支持后台插图)
insert_image(note_id=note_id, anchor_id=placeholder_block_id,
position="before", src="data:image/jpeg;base64,...")
各来源特殊处理
微信公众号 HTML(原文.html)
微信公众号文章使用内联 CSS 样式表达富文本,需要从 HTML 解析格式:
目录结构:
文章目录/
原文.html ← 完整 HTML,含内联样式
meta.json ← {"title": "...", "publish_time": "2025-04-21 18:30", "url": "..."}
图片/ ← 本地图片文件
image_001.jpg
image_002.jpg
HTML 解析要点:
- 正文在
#js_content容器内 - 图片在
<img data-src="https://...">属性中(不是src) - 标题通过
font-size >= 18px的 span 推断 - 颜色通过 span 的
color: rgb(...)样式提取,需映射到 WPS 预设色 - 粗体通过
font-weight: 700或bold识别
内联样式 → WPS XML 映射:
# font-size >= 18px → <h2>
# font-weight: 700|bold → <strong>
# font-style: italic → <em>
# color: rgb(R,G,B) → <span fontColor="#WPS预设色">(需颜色映射)
详细颜色映射规则见 references/conversion-guide.md 第 10 节。
Obsidian Vault
- Wiki 链接:
[[文件名]]→ 纯文本;[[文件名|显示名]]→显示名 - 标签:
#标签名→<tag>#标签名</tag> - Callouts:
> [!NOTE]→ WPS<highlightBlock> - Frontmatter:YAML 头部提取为 meta 信息
- 图片路径:先找同目录 → 再找
attachments/→ 再找 Vault 根目录
思源笔记(SiYuan)
.sy文件是 JSON 格式的 Block Tree- 图片路径格式为
assets/xxx.png,实际文件在<工作空间>/data/assets/ - 详细节点类型映射见
references/conversion-guide.md第 6 节
故障排查
get_note_outline 只返回 100 个 block,后面内容丢失
使用翻页方案,见"WPS API 关键限制"第 1 条。
图片插入后点击显示加载失败
旧版 WPS(< 0.1.4)insert_image 的 fileID 绑定到前台笔记,升级到最新版本可解决。
insert_image 报 IMAGE_FETCH_FAILED
- 检查 base64 data URI 格式:必须是
data:image/jpeg;base64,<数据>(不能是data:application/octet-stream) - 大图片优先使用稳定 URL;如果只能传 base64,确保传入的是完整 data URI
anchor 失效导致内容截断
实现 4 次重试逻辑,每次失败后重新获取 last_block_id,见"WPS API 关键限制"第 4 条。
list_notes / search_notes 返回结果过多
缩小筛选范围或主动分页,见"WPS API 关键限制"第 3 条。
pandoc 未安装
brew install pandoc # macOS
pdfplumber 未安装
pip3 install pdfplumber
PDF 扫描版无文字(需要 OCR)
pip3 install pytesseract pdf2image
brew install tesseract
依赖项清单
| 工具 | 用途 | 安装 |
|---|---|---|
笔记 Agent 工具(create_note / get_note_outline / batch_edit / insert_image / read_note / read_blocks / search_notes / sync_note) |
WPS 笔记写入、去重与回读(必须) | 宿主提供 |
beautifulsoup4 |
HTML 解析(公众号/网页) | pip3 install beautifulsoup4 |
lxml |
HTML 解析加速 | pip3 install lxml |
pandoc |
DOCX → Markdown | brew install pandoc |
pdfplumber |
PDF 文本/表格提取 | pip3 install pdfplumber |
pypdf |
PDF 图片提取备选 | pip3 install pypdf |
markitdown |
PPTX → Markdown | pip3 install "markitdown[pptx]" |
pandas |
XLSX 读取 | pip3 install pandas openpyxl |
pillow |
图片处理/base64转换 | pip3 install pillow |
python-frontmatter |
YAML Frontmatter 解析 | pip3 install python-frontmatter |
详细转换逻辑见 references/conversion-guide.md。
More from wpsnote/wpsnote-skills
wps-note
通过 MCP 工具读取、编辑和管理 WPS 笔记,基于 block 文档模型,所有内容以
62novel-writer
AI 陪伴式长篇小说创作助手,结合 WPS 笔记实现有记忆、懂上下文、不穿帮的持续创作。触发词:帮我写小说、我想写一部小说、继续写小说、写下一章、我有个故事想法、帮我创作。核心能力:冷启动建档(世界观+人物设定+AI生图)、按章写作、每次自动回顾上文防穿帮、全程归档 WPS 笔记。不适用于:短文、散文、诗歌等非长篇小说创作。
27skill-creator
Create new skills, modify and improve existing skills, and measure skill performance. Use when users want to create a skill from scratch, edit, or optimize an existing skill, run evals to test a skill, benchmark skill performance with variance analysis, or optimize a skill's description for better triggering accuracy.
20novel-writer-cli
AI 陪伴式长篇小说创作助手(CLI 版)。通过系统命令行调用 wpsnote-cli 操作 WPS 笔记,实现有记忆、懂上下文、不穿帮的持续创作。触发词:帮我写小说、我想写一部小说、继续写小说、写下一章、我有个故事想法、帮我创作。核心能力:冷启动建档(世界观+人物设定+AI生图)、按章写作、每次自动回顾上文防穿帮、全程归档 WPS 笔记。不适用于:短文、散文、诗歌等非长篇小说创作。
16tag-organize
笔记标签整理的核心原则与完整工作流程。当用户提到"整理笔记标签"、"清理标签"、"标签太乱"、"标签太多"、"帮我打标签"、"重构标签"、"重新分类"、"笔记分类混乱"、"标签体系需要优化"等需求时使用。
13wpsnote-beautifier
智能美化 WPS 笔记文档,采用克制统一的配色风格(全文仅1种主色调,不混用多色系)。核心能力:优化标题层级结构、用高亮块强调核心结论与注意事项、用分栏展示对比或并列内容、应用统一配色方案并写入。仅当用户明确表达美化需求时才触发,例如:美化笔记、排版优化、文档美化、笔记排版、WPS笔记美化、智能排版、文档结构调整、加颜色、加高亮、加分栏、让笔记好看点、优化文档格式、笔记太丑了、调整排版、加点样式、给笔记润色、整理笔记格式、提升可读性。不要在用户仅要求写入内容、编辑文字、总结归纳等非美化场景下主动触发此skill。通过 user-wpsnote MCP 服务操作 WPS 笔记文档。
12