smart-crawler
SKILL.md
Smart Crawler - 智能爬虫工具
企业级数据采集解决方案,支持智能反爬虫处理、分布式爬取和数据清洗。
核心功能
| 功能模块 | 说明 |
|---|---|
| 智能爬虫引擎 | 基于 Playwright/Selenium 的动态渲染爬取 |
| 反爬虫处理 | 自动切换 User-Agent、代理池、请求频率控制 |
| 数据提取 | XPath/CSS Selector/Regex 多模式数据提取 |
| 分布式支持 | Redis 队列支持的分布式爬取 |
| 数据清洗 | 自动去重、格式标准化、敏感信息过滤 |
快速开始
from scripts.crawler_engine import CrawlerEngine