url-to-markdown
Installation
SKILL.md
url-to-markdown 通用网页转Markdown技能
📖 技能概述
专门用于抓取任意公开网页内容(不处理 mp.weixin.qq.com 链接,请使用 wechat-article-fetcher 技能),通过浏览器渲染获取完整HTML后自动转换为标准Markdown格式,保留原文排版、图片、链接、标题层级等结构,适合普通网页、博客、新闻、技术文档等非微信平台内容的快速转码和本地备份。
🎯 适用场景
- 📚 普通网页内容快速采集
- 💾 技术文档、博客文章本地备份
- 📝 公开新闻、资讯内容转存
- 🗃️ 非微信公众号平台网页
- 🌐 通用HTML内容转Markdown格式转换
🔧 依赖安装
环境要求
- Node.js >= 14.0.0
- 操作系统:Windows / Linux / macOS 全平台兼容
安装步骤
# 进入技能目录
cd skills/url-to-markdown
# 安装依赖
npm install
🚀 使用方法
# 命令格式
node scripts/url-to-markdown.js <网页URL> [输出文件路径]
参数说明
| 参数 | 类型 | 是否必填 | 说明 |
|---|---|---|---|
| 网页URL | string | 是 | 任意公开可访问的网页链接(不支持 mp.weixin.qq.com 链接,请使用 wechat-article-fetcher 技能) |
| 输出文件路径 | string | 否 | 保存的Markdown文件路径,默认值:output.md |
使用示例
# 示例1:转换掘金文章,默认保存为output.md
node scripts/url-to-markdown.js https://juejin.cn/post/7345678901234567
# 示例2:转换技术文档,指定输出路径
node scripts/url-to-markdown.js https://docs.openclaw.ai ./openclaw-docs.md
📂 输出说明
Markdown文件格式
# 网页标题
来源:https://example.com/page-url
## 原文标题1
原文内容...

## 原文标题2
原文内容...
[链接文字](链接地址)
自动保留原文的标题层级、段落、列表、引用、图片、链接等完整结构。
✨ 核心特性
✅ 真实浏览器渲染:通过OpenClaw浏览器能力获取完整渲染后的HTML,避免动态内容抓取失败 ✅ 标准格式转换:基于Turndown实现,转换后的Markdown格式规范,兼容性强 ✅ 结构完整保留:自动保留原文标题、段落、列表、引用、图片、链接等所有排版结构 ✅ 轻量高效:无需复杂配置,单命令即可完成转换 ✅ 跨平台兼容:支持Windows/Linux/macOS全平台运行
❓ 常见问题
Q: 抓取失败提示「获取网页HTML失败」怎么办?
A: 请确认网页是公开可访问的,没有设置登录墙或付费墙;部分网站反爬策略严格,可多尝试几次。
Q: 图片显示不出来怎么办?
A: 部分网站图片设置了防盗链,转换后保留原图片链接,需要在对应网站域名下才能正常访问。
📝 更新记录
- v1.0.0 (2026-03-18):初始版本,完成核心网页抓取、HTML转Markdown功能