skill-browser-crawl

Installation
SKILL.md

Browser-Based Web Crawler (浏览器网页爬虫)

一个基于浏览器的轻量级网页爬取工具,专为实际应用场景设计。当用户需要爬取需要 JavaScript 渲染的页面、将内容提取为 Markdown 格式或递归爬取整个文档站点时,请使用此技能。

快速开始

基础单页爬取

用于爬取单个 URL 并提取其 Markdown 内容:

python skills/skill-browser-crawl/scripts/basic_crawl.py <url>

示例:

python skills/skill-browser-crawl/scripts/basic_crawl.py https://example.com

输出:

  • output.md - Markdown 格式的页面内容
  • screenshot.png - 页面截图

深度递归爬取

用于爬取整个文档站点或多页网站:

python skills/skill-browser-crawl/scripts/deep_crawl.py <base_url> [output_dir]

示例:

# 爬取整个站点
python skills/skill-browser-crawl/scripts/deep_crawl.py https://docs.example.com

# 爬取并指定输出目录
python skills/skill-browser-crawl/scripts/deep_crawl.py https://docs.example.com ./my_docs

# 限制最多爬取 50 页
python skills/skill-browser-crawl/scripts/deep_crawl.py https://docs.example.com ./docs --max-pages 50

常用选项

深度爬取过滤

# 排除特定路径模式
python skills/skill-browser-crawl/scripts/deep_crawl.py https://docs.example.com --exclude '/api' --exclude '/auth'

# 仅包含特定路径模式
python skills/skill-browser-crawl/scripts/deep_crawl.py https://docs.example.com --include '/docs/' --include '/guide/'

# 允许跨域爬取
python skills/skill-browser-crawl/scripts/deep_crawl.py https://docs.example.com --allow-cross-domain

并发控制

# 设置最大并发请求数(默认:5)
python skills/skill-browser-crawl/scripts/deep_crawl.py https://docs.example.com --max-concurrent 3

依赖项

脚本使用 PEP 723 内联元数据声明依赖,运行前确保已安装:

pip install "crawl4ai>=0.7.4"
playwright install chromium

macOS 权限问题

在 macOS 上运行可能遇到 ~/.crawl4ai 目录权限问题(尤其是在 Homebrew 安装的 Python 环境中)。如果遇到权限错误,尝试设置临时 HOME 目录:

export HOME=/tmp/crawl4ai_home
mkdir -p $HOME

# 首次运行前安装浏览器
playwright install chromium

# 然后正常爬取
python skills/skill-browser-crawl/scripts/basic_crawl.py <url>

适用场景

  • 爬取需要浏览器渲染的高度依赖 JavaScript 的网站
  • 从网页中提取内容并保存为 Markdown
  • 下载整个文档站点供离线使用
  • 带有过滤选项的多页内容抓取
  • 无需复杂提取策略的简单网页抓取

不适用场景

  • 使用 CSS 选择器/XPath 进行复杂的数据提取(请使用原始 crawl4ai 技能)
  • 基于 LLM 的内容提取(请使用原始 crawl4ai 技能)
  • 代理池切换、身份验证挂钩等高级功能(请使用原始 crawl4ai 技能)

输出格式

基础爬取会在当前工作目录生成:

  • output.md: 页面内容的 Markdown 格式
  • screenshot.png: 页面截图

建议在专用目录中运行爬取,避免文件散落。

Related skills

More from hwj123hwj/custom-skills

Installs
16
GitHub Stars
2
First Seen
Mar 1, 2026