skill-browser-crawl

Installation

SKILL.md

Browser-Based Web Crawler (浏览器网页爬虫)

一个基于浏览器的轻量级网页爬取工具，专为实际应用场景设计。当用户需要爬取需要 JavaScript 渲染的页面、将内容提取为 Markdown 格式或递归爬取整个文档站点时，请使用此技能。

快速开始

基础单页爬取

用于爬取单个 URL 并提取其 Markdown 内容：

python skills/skill-browser-crawl/scripts/basic_crawl.py <url>

示例：

python skills/skill-browser-crawl/scripts/basic_crawl.py https://example.com

输出：

output.md - Markdown 格式的页面内容
screenshot.png - 页面截图

深度递归爬取

用于爬取整个文档站点或多页网站：

python skills/skill-browser-crawl/scripts/deep_crawl.py <base_url> [output_dir]

示例：

# 爬取整个站点
python skills/skill-browser-crawl/scripts/deep_crawl.py https://docs.example.com

# 爬取并指定输出目录
python skills/skill-browser-crawl/scripts/deep_crawl.py https://docs.example.com ./my_docs

# 限制最多爬取 50 页
python skills/skill-browser-crawl/scripts/deep_crawl.py https://docs.example.com ./docs --max-pages 50

常用选项

深度爬取过滤

# 排除特定路径模式
python skills/skill-browser-crawl/scripts/deep_crawl.py https://docs.example.com --exclude '/api' --exclude '/auth'

# 仅包含特定路径模式
python skills/skill-browser-crawl/scripts/deep_crawl.py https://docs.example.com --include '/docs/' --include '/guide/'

# 允许跨域爬取
python skills/skill-browser-crawl/scripts/deep_crawl.py https://docs.example.com --allow-cross-domain

并发控制

# 设置最大并发请求数（默认：5）
python skills/skill-browser-crawl/scripts/deep_crawl.py https://docs.example.com --max-concurrent 3

依赖项

脚本使用 PEP 723 内联元数据声明依赖，运行前确保已安装：

pip install "crawl4ai>=0.7.4"
playwright install chromium

macOS 权限问题

在 macOS 上运行可能遇到 ~/.crawl4ai 目录权限问题（尤其是在 Homebrew 安装的 Python 环境中）。如果遇到权限错误，尝试设置临时 HOME 目录：

export HOME=/tmp/crawl4ai_home
mkdir -p $HOME

# 首次运行前安装浏览器
playwright install chromium

# 然后正常爬取
python skills/skill-browser-crawl/scripts/basic_crawl.py <url>

适用场景

爬取需要浏览器渲染的高度依赖 JavaScript 的网站
从网页中提取内容并保存为 Markdown
下载整个文档站点供离线使用
带有过滤选项的多页内容抓取
无需复杂提取策略的简单网页抓取

不适用场景

使用 CSS 选择器/XPath 进行复杂的数据提取（请使用原始 crawl4ai 技能）
基于 LLM 的内容提取（请使用原始 crawl4ai 技能）
代理池切换、身份验证挂钩等高级功能（请使用原始 crawl4ai 技能）

输出格式

基础爬取会在当前工作目录生成：

output.md: 页面内容的 Markdown 格式
screenshot.png: 页面截图

建议在专用目录中运行爬取，避免文件散落。

Related skills

More from hwj123hwj/custom-skills

Installs

Repository

hwj123hwj/custom-skills

GitHub Stars

First Seen

Mar 1, 2026

Security Audits

Gen Agent Trust HubFail

SocketPass

SnykWarn

skill-browser-crawl

Browser-Based Web Crawler (浏览器网页爬虫)

快速开始

基础单页爬取

深度递归爬取

常用选项

深度爬取过滤

并发控制

依赖项

macOS 权限问题

适用场景

不适用场景

输出格式

More from hwj123hwj/custom-skills

bilibili-toolkit

bilibili-video-helper

idea-incubator

bjtuo-classroom-query

media-analyze

wechat-search