ai-daily-digest
AI 前沿日报技能
技能概述
本技能用于自动搜集 AI 领域的前沿信息,包括最新论文和行业资讯,生成结构化报告并通过微信推送给用户。
触发场景
- 用户需要创建 AI 前沿信息的定时搜集任务
- 用户需要每天自动接收 AI 论文和资讯报告
- 用户需要追踪特定关键词的最新研究进展
- 用户提到"日报"、"定时推送"、"论文追踪"等需求
核心功能
- arXiv 论文检索 - 使用 arXiv API 获取最新论文(关键词:LLM, VLM, Machine Learning等)
- 量子位资讯抓取 - 从量子位网站获取 AI 相关新闻
- 机器之心资讯 - 从机器之心获取 AI 算法、产业资讯
- Papers With Code - 获取热门 CV 论文及代码实现
- 研究机构博客 - 从 FAIR、Google Research、DeepMind、Microsoft Research、Hugging Face 获取官方博客
- Google Scholar 检索 - 使用浏览器工具抓取学术搜索结果
- 报告生成 - 整合所有来源信息,生成结构化报告
- 微信推送 - 通过微信测试号发送报告
工作流程
步骤 1: 确认配置信息
在创建定时任务前,确认以下信息:
- 微信测试号配置 - 确认用户已配置好微信测试号
- 检索关键词 - 默认关键词:
- computer vision
- LLM
- VLM
- machine learning
- 运行时间 - 默认每天 10:00 (Asia/Shanghai)
- 报告详细程度 - 每条信息包含标题、链接、详细说明(任务、motivation、重要观点)
- Browser 工具 - 部分数据源(机器之心、Papers With Code、Google Scholar)需要使用 browser 工具抓取
步骤 2: 创建定时任务
使用 OpenClaw 原生 cron 工具创建定时任务:
{
"name": "ai-daily-digest",
"schedule": {
"kind": "cron",
"expr": "0 10 * * *",
"tz": "Asia/Shanghai"
},
"payload": {
"kind": "agentTurn",
"message": "请执行 AI 前沿日报搜集任务:1.使用 arXiv API 检索最新论文 2.抓取量子位网站 AI 资讯 3.使用浏览器检索 Google Scholar 4.生成详细报告并通过微信推送",
"timeoutSeconds": 600
},
"sessionTarget": "isolated",
"enabled": true
}
步骤 3: 执行信息搜集
3.1 arXiv 检索
执行脚本:scripts/fetch_arxiv.py
该脚本:
- 调用 arXiv API
- 检索关键词:VLM, LLM, Machine Learning
- 过滤分类:cs.CV, cs.AI
- 获取最近 1 天的论文
- 返回论文标题、链接、作者、摘要等信息
3.2 量子位资讯抓取
执行脚本:scripts/fetch_qbitai.py
该脚本:
- 尝试从 RSS 源获取文章
- 如 RSS 不可用,使用 browser 工具抓取网站
- 过滤 AI 相关内容
- 返回文章标题、链接、摘要、发布时间
3.3 机器之心(Browser 抓取)
由于 RSS/API 已失效,使用 browser 工具抓取:
# 步骤 1: 打开网站
browser.navigate(url="https://www.jiqizhixin.com")
# 步骤 2: 等待页面加载
browser.act(kind="wait", timeMs=3000)
# 步骤 3: 获取页面内容
snapshot = browser.snapshot()
# 步骤 4: 解析文章列表
# 查找文章卡片元素,提取标题、链接、发布时间
3.4 Papers With Code(Browser 抓取)
由于 API 已失效,使用 browser 工具抓取:
# 步骤 1: 打开 trending 页面
browser.navigate(url="https://paperswithcode.com/latest")
# 步骤 2: 等待页面加载
browser.act(kind="wait", timeMs=3000)
# 步骤 3: 获取页面内容
snapshot = browser.snapshot()
# 步骤 4: 解析论文列表
# 查找 paper-card 元素,提取标题、链接、代码仓库数
3.5 Google Scholar 检索
使用 browser 工具执行以下步骤:
- 对每个关键词,打开 Google Scholar 搜索页面
- 等待页面加载完成
- 使用 snapshot 获取页面内容
- 提取搜索结果(标题、链接、摘要、作者信息)
- 保存结果
搜索 URL 示例:
https://scholar.google.com/scholar?q=visual+LLM&hl=en&as_sdt=0,5&as_ylo=2024
步骤 4: 生成报告
执行脚本:scripts/generate_report.py
报告格式:
# 🤖 AI 前沿日报
**日期**: 2026 年 03 月 31 日 星期二
**生成时间**: 10:00
**数据来源**: arXiv、量子位、Google Scholar
---
## 📌 今日要点
今日共搜集到 **X** 条 AI 前沿信息:
• 📚 arXiv 论文:X 篇
• 📰 量子位资讯:X 条
• 🔍 Google Scholar: X 条
### 重点推荐
📌 **arXiv**: [论文标题]...
📌 **量子位**: [文章标题]...
📌 **Scholar**: [论文标题]...
---
# 📚 arXiv 最新论文
## visual LLM
**📄 [论文标题]**
**🔗 链接**: [URL]
**👤 作者**: 作者列表
**📅 时间**: 发布日期
**📝 详细说明**:
摘要内容...
**研究任务**: 该研究致力于...
**Motivation**: 当前研究背景和需求...
**重要观点**: 核心贡献和观点...
---
[更多论文...]
# 📰 量子位精选
[文章详情...]
# 🔍 Google Scholar 推荐
[论文详情...]
---
## 📊 今日统计
- **arXiv 论文数**: X
- **量子位文章数**: X
- **Google Scholar 结果数**: X
- **总计信息条数**: X
---
*本日报由 AI 自动搜集整理*
步骤 5: 微信推送
在 cron 任务中,输出报告内容。如果配置了微信通道,cron 系统会自动推送。
注意: 在 cron 会话中不要直接调用 message 工具。输出报告内容即可,cron 系统会根据配置自动推送到微信。
脚本说明
scripts/fetch_arxiv.py
arXiv 论文检索脚本
输入: 无(使用内置关键词)
输出: JSON 格式的论文列表
字段:
- title: 论文标题
- link: arXiv 链接
- abstract: 摘要
- authors: 作者列表
- published: 发布日期
- categories: 分类
- keyword_match: 匹配的关键词
scripts/fetch_qbitai.py
量子位资讯抓取脚本
输入: 无
输出: JSON 格式的文章列表
字段:
- title: 文章标题
- link: 文章链接
- summary: 摘要
- published: 发布时间
- source: 量子位
scripts/fetch_google_scholar.py
Google Scholar 检索辅助脚本
功能: 生成搜索 URL 和浏览器操作指令
注意: 实际抓取由主流程使用 browser 工具完成
scripts/generate_report.py
报告生成脚本
输入: JSON 格式的各来源数据(通过 stdin)
输出: Markdown 格式的报告
功能:
- 整合所有来源数据
- 生成统一格式的报告
- 支持 WeChat 格式转换
定时任务配置
创建 cron 任务
# 使用 cron.add 创建任务
任务配置要点:
- schedule.kind: "cron"
- schedule.expr: "0 10 * * *" (每天 10:00)
- schedule.tz: "Asia/Shanghai"
- payload.kind: "agentTurn"
- sessionTarget: "isolated" (必须)
- delivery: 配置微信推送通道
示例 cron 配置
{
"name": "AI 前沿日报",
"schedule": {
"kind": "cron",
"expr": "0 10 * * *",
"tz": "Asia/Shanghai"
},
"payload": {
"kind": "agentTurn",
"message": "请执行 AI 前沿日报搜集任务,检索关键词:LLM, VLM, Machine Learning。生成详细报告并推送。",
"timeoutSeconds": 600
},
"sessionTarget": "isolated",
"delivery": {
"mode": "announce",
"channel": "openclaw-weixin"
},
"enabled": true
}
自定义配置
修改关键词
方法 1: 命令行参数(推荐)
运行脚本时直接指定关键词:
python3 scripts/fetch_arxiv.py "multimodal learning" "vision transformer" "robotics vision"
或在主脚本中:
python3 scripts/ai_daily_digest.py --keywords "multimodal learning,vision transformer,robotics"
方法 2: 环境变量
设置环境变量 ARXIV_KEYWORDS:
export ARXIV_KEYWORDS="multimodal learning,vision transformer,robotics"
python3 scripts/fetch_arxiv.py --env
或在主脚本中:
export ARXIV_KEYWORDS="multimodal learning,vision transformer,robotics"
python3 scripts/ai_daily_digest.py --env-keywords
方法 3: 修改默认关键词
编辑脚本 scripts/fetch_arxiv.py 中的 DEFAULT_KEYWORDS 列表:
DEFAULT_KEYWORDS = [
"your keyword 1",
"your keyword 2",
"your keyword 3"
]
修改运行时间
更新 cron 任务的 schedule.expr 字段:
- 每天 8:00:
"0 8 * * *" - 工作日 9:00:
"0 9 * * 1-5" - 每 6 小时:
"0 */6 * * *"
修改报告详细程度
编辑 scripts/generate_report.py 中的 format_paper_detail 函数,调整摘要长度和字段。
故障排查
arXiv API 失败
- 检查网络连接
- 验证 API URL:
http://export.arxiv.org/api/query - 增加超时时间
量子位抓取失败
- RSS 可能不可用,改用 browser 工具
- 检查网站结构是否变化
- 更新解析逻辑
Google Scholar 反爬
- 使用 browser 工具模拟真实浏览器
- 添加请求延迟
- 考虑使用 Semantic Scholar API 替代
微信推送失败
- 检查微信测试号配置
- 验证 channel 是否启用
- 确认 cron 任务配置了 delivery
使用示例
创建定时任务
用户:帮我创建一个每天搜集 AI 前沿信息的定时任务
你:
- 确认关键词和推送方式
- 调用 cron.add 创建任务
- 告知用户任务已创建
手动执行一次
用户:现在执行一次 AI 日报搜集
你:
- 执行各检索脚本
- 生成报告
- 输出报告内容
修改关键词
用户:把关键词改成"multimodal learning"和"robotics"
你:
- 更新脚本中的 KEYWORDS 列表
- 重新运行测试
- 确认效果
注意事项
- 浏览器使用: Google Scholar 检索需要使用 browser 工具,确保 browser.enabled = true
- 超时设置: 建议设置 600 秒超时,因为需要多次网络请求
- 微信格式: 报告已针对微信优化,避免复杂 Markdown
- 数据持久化: 如需保存历史报告,可添加文件输出功能
- 频率限制: 避免过于频繁的检索,遵守各平台的使用条款
相关文件
scripts/fetch_arxiv.py- arXiv 检索scripts/fetch_qbitai.py- 量子位抓取scripts/fetch_google_scholar.py- Google Scholar 辅助scripts/generate_report.py- 报告生成