skill-browser-crawl
Browser-Based Web Crawler (浏览器网页爬虫)
一个基于浏览器的轻量级网页爬取工具,专为实际应用场景设计。当用户需要爬取需要 JavaScript 渲染的页面、将内容提取为 Markdown 格式或递归爬取整个文档站点时,请使用此技能。
快速开始
基础单页爬取
用于爬取单个 URL 并提取其 Markdown 内容:
python skills/skill-browser-crawl/scripts/basic_crawl.py <url>
示例:
python skills/skill-browser-crawl/scripts/basic_crawl.py https://example.com
输出:
output.md- Markdown 格式的页面内容screenshot.png- 页面截图
深度递归爬取
用于爬取整个文档站点或多页网站:
python skills/skill-browser-crawl/scripts/deep_crawl.py <base_url> [output_dir]
示例:
# 爬取整个站点
python skills/skill-browser-crawl/scripts/deep_crawl.py https://docs.example.com
# 爬取并指定输出目录
python skills/skill-browser-crawl/scripts/deep_crawl.py https://docs.example.com ./my_docs
# 限制最多爬取 50 页
python skills/skill-browser-crawl/scripts/deep_crawl.py https://docs.example.com ./docs --max-pages 50
常用选项
深度爬取过滤
# 排除特定路径模式
python skills/skill-browser-crawl/scripts/deep_crawl.py https://docs.example.com --exclude '/api' --exclude '/auth'
# 仅包含特定路径模式
python skills/skill-browser-crawl/scripts/deep_crawl.py https://docs.example.com --include '/docs/' --include '/guide/'
# 允许跨域爬取
python skills/skill-browser-crawl/scripts/deep_crawl.py https://docs.example.com --allow-cross-domain
并发控制
# 设置最大并发请求数(默认:5)
python skills/skill-browser-crawl/scripts/deep_crawl.py https://docs.example.com --max-concurrent 3
依赖项
脚本使用 PEP 723 内联元数据声明依赖,运行前确保已安装:
pip install "crawl4ai>=0.7.4"
playwright install chromium
macOS 权限问题
在 macOS 上运行可能遇到 ~/.crawl4ai 目录权限问题(尤其是在 Homebrew 安装的 Python 环境中)。如果遇到权限错误,尝试设置临时 HOME 目录:
export HOME=/tmp/crawl4ai_home
mkdir -p $HOME
# 首次运行前安装浏览器
playwright install chromium
# 然后正常爬取
python skills/skill-browser-crawl/scripts/basic_crawl.py <url>
适用场景
- 爬取需要浏览器渲染的高度依赖 JavaScript 的网站
- 从网页中提取内容并保存为 Markdown
- 下载整个文档站点供离线使用
- 带有过滤选项的多页内容抓取
- 无需复杂提取策略的简单网页抓取
不适用场景
- 使用 CSS 选择器/XPath 进行复杂的数据提取(请使用原始 crawl4ai 技能)
- 基于 LLM 的内容提取(请使用原始 crawl4ai 技能)
- 代理池切换、身份验证挂钩等高级功能(请使用原始 crawl4ai 技能)
输出格式
基础爬取会在当前工作目录生成:
- output.md: 页面内容的 Markdown 格式
- screenshot.png: 页面截图
建议在专用目录中运行爬取,避免文件散落。
More from hwj123hwj/custom-skills
bilibili-toolkit
B 站综合工具箱。集成视频下载、文稿采集、向量知识库构建、语义检索问答及 UP 主人格画像分析等功能。
26bilibili-video-helper
搜索、分析和提取 Bilibili 视频的综合工具。每当用户提到 B 站、bilibili、提供 B 站链接(bilibili.com, b23.tv)、要求搜索特定视频、提取视频元数据(标题、UP主、播放量、简介)、获取视频字幕、获取评论或弹幕进行分析总结时,必须触发此技能。支持处理 412 风控引导及 Cookie 注入。
20idea-incubator
专业的 CPO + 技术合伙人助手,帮助用户孵化想法、分析可行性并编写技术文档。适用于当你有新产品想法、技术方案或“灵光一现”需要结构化整理时。
10bjtuo-classroom-query
北京交通大学(BJTU)教室综合查询。结合教务系统课表(判断是否有课)和实时人数接口(当前在场人数),综合评估教室空闲情况。
7media-analyze
媒体分析报告生成。多源搜索话题,自动生成结构化分析报告。触发场景:(1) 用户要求分析某个话题 (2) 需要生成话题调研报告 (3) 了解事件的舆论反应。关键词:分析话题、媒体报告、话题调研、舆论分析。
4wechat-search
用于搜索微信公众号文章的工具。每当用户要求搜索“微信公众号文章”、“微信文章”、或者通过关键词寻找特定话题(如“搜一下AI进展”)时,必须触发此技能。本技能负责搜索文章列表(标题、链接、摘要)。
3