douyin-analytics
抖音数据抓取技能
根据抖音用户主页 URL 和 Cookie,抓取该用户发布的视频列表数据,包含标题、发布日期、点赞/评论/分享/播放数据,以表格形式汇报。
工作流程
严格按照以下顺序执行,每步确认后再继续:
第一步:收集必要信息
依次询问用户以下信息:
-
目标抖音用户主页 URL
- 格式示例:
https://www.douyin.com/user/MS4wLjABAAAA... - 从 URL 中提取
sec_user_id参数
- 格式示例:
-
抖音登录 Cookie
- 引导用户:打开浏览器开发者工具 (F12) → Network 标签 → 刷新页面 → 找到任意 douyin.com 请求 → 复制 Request Headers 中的 Cookie 值
- Cookie 必须包含
sessionid字段,否则无法获取数据
-
抓取时间范围
- 询问:抓取最近多少天的视频?
- 默认值:7 天
- 建议范围:1-30 天
第二步:准备环境
# 将 Cookie 写入临时文件
echo "<用户提供的Cookie>" > /tmp/dy_cookie.txt
# 确保 requests 库可用
pip install requests -q
第三步:执行数据抓取
运行 scripts/fetch_videos.py 脚本:
python ~/.openclaw/workspace/skills/douyin-analytics/scripts/fetch_videos.py \
--sec_user_id "<从URL提取的sec_user_id>" \
--cookie_file /tmp/dy_cookie.txt \
--days <用户指定的天数>
第四步:汇报结果
以表格形式展示抓取结果:
| 序号 | 标题 | 发布日期 | 点赞 | 评论 | 分享 | 播放 |
|---|---|---|---|---|---|---|
| 1 | ... | ... | ... | ... | ... | ... |
数据摘要:
- 视频总数:X 条
- 平均播放量:X
- 最高播放视频:[标题] (X 次播放)
错误处理
| 错误码 | 含义 | 解决方案 |
|---|---|---|
| status_code=2 | Cookie 无效或过期 | 提示用户重新从浏览器 Network 面板获取 Cookie,确保包含完整值 |
| status_code=8 | 需要登录 | 提示用户重新登录抖音网页版,然后获取新 Cookie |
| 网络错误 | 连接失败 | 检查网络连接,或建议用户使用 VPN |
注意事项
- Cookie 包含敏感信息,仅在本次会话使用,不会存储
- 抖音 API 可能有频率限制,大量抓取时建议间隔请求
- 视频数据可能不完整,部分视频可能无播放量数据
More from hwj123hwj/sanwan-skills
feishu-doc
Fetch content from Feishu (Lark) Wiki, Docs, Sheets, and Bitable. Automatically resolves Wiki URLs to real entities and converts content to Markdown.
4email-manager
邮件管理技能。监控飞书邮件、IMAP邮箱检查、发送邮件。触发词:邮件、email、mail、收件箱、未读邮件、发邮件、邮件监控。
1xiaohongshu-mcp
>
1ai-news-zh
中文AI科技日报自动采集与推送。从The Verge、Wired、TechCrunch等英文源抓取最新AI资讯,自动翻译整理为中文,按分类推送到飞书/Telegram/Discord等渠道。适合关注AI行业动态的中文用户。
1xiaohongshu
XiaoHongShu (Little Red Book) data collection and interaction toolkit. Use when working with XiaoHongShu (小红书) platform for: (1) Searching and scraping notes/posts, (2) Getting user profiles and details, (3) Extracting comments and likes, (4) Following users and liking posts, (5) Fetching home feed and trending content. Automatically handles all encryption parameters (cookies, headers) including a1, webId, x-s, x-s-common, x-t, sec_poison_id, websectiga, gid, x-b3-traceid, x-xray-traceid. Supports guest mode and authenticated sessions via web_session cookie.
1