skills/skills.netease.im/ai-daily-digest

ai-daily-digest

SKILL.md

AI 前沿日报技能

技能概述

本技能用于自动搜集 AI 领域的前沿信息,包括最新论文和行业资讯,生成结构化报告并通过微信推送给用户。

触发场景

  • 用户需要创建 AI 前沿信息的定时搜集任务
  • 用户需要每天自动接收 AI 论文和资讯报告
  • 用户需要追踪特定关键词的最新研究进展
  • 用户提到"日报"、"定时推送"、"论文追踪"等需求

核心功能

  1. arXiv 论文检索 - 使用 arXiv API 获取最新论文(关键词:LLM, VLM, Machine Learning等)
  2. 量子位资讯抓取 - 从量子位网站获取 AI 相关新闻
  3. 机器之心资讯 - 从机器之心获取 AI 算法、产业资讯
  4. Papers With Code - 获取热门 CV 论文及代码实现
  5. 研究机构博客 - 从 FAIR、Google Research、DeepMind、Microsoft Research、Hugging Face 获取官方博客
  6. Google Scholar 检索 - 使用浏览器工具抓取学术搜索结果
  7. 报告生成 - 整合所有来源信息,生成结构化报告
  8. 微信推送 - 通过微信测试号发送报告

工作流程

步骤 1: 确认配置信息

在创建定时任务前,确认以下信息:

  1. 微信测试号配置 - 确认用户已配置好微信测试号
  2. 检索关键词 - 默认关键词:
  • computer vision
  • LLM
  • VLM
  • machine learning
  1. 运行时间 - 默认每天 10:00 (Asia/Shanghai)
  2. 报告详细程度 - 每条信息包含标题、链接、详细说明(任务、motivation、重要观点)
  3. Browser 工具 - 部分数据源(机器之心、Papers With Code、Google Scholar)需要使用 browser 工具抓取

步骤 2: 创建定时任务

使用 OpenClaw 原生 cron 工具创建定时任务:

{
  "name": "ai-daily-digest",
  "schedule": {
    "kind": "cron",
    "expr": "0 10 * * *",
    "tz": "Asia/Shanghai"
  },
  "payload": {
    "kind": "agentTurn",
    "message": "请执行 AI 前沿日报搜集任务:1.使用 arXiv API 检索最新论文 2.抓取量子位网站 AI 资讯 3.使用浏览器检索 Google Scholar 4.生成详细报告并通过微信推送",
    "timeoutSeconds": 600
  },
  "sessionTarget": "isolated",
  "enabled": true
}

步骤 3: 执行信息搜集

3.1 arXiv 检索

执行脚本:scripts/fetch_arxiv.py

该脚本:

  • 调用 arXiv API
  • 检索关键词:VLM, LLM, Machine Learning
  • 过滤分类:cs.CV, cs.AI
  • 获取最近 1 天的论文
  • 返回论文标题、链接、作者、摘要等信息

3.2 量子位资讯抓取

执行脚本:scripts/fetch_qbitai.py

该脚本:

  • 尝试从 RSS 源获取文章
  • 如 RSS 不可用,使用 browser 工具抓取网站
  • 过滤 AI 相关内容
  • 返回文章标题、链接、摘要、发布时间

3.3 机器之心(Browser 抓取)

由于 RSS/API 已失效,使用 browser 工具抓取:

# 步骤 1: 打开网站
browser.navigate(url="https://www.jiqizhixin.com")

# 步骤 2: 等待页面加载
browser.act(kind="wait", timeMs=3000)

# 步骤 3: 获取页面内容
snapshot = browser.snapshot()

# 步骤 4: 解析文章列表
# 查找文章卡片元素,提取标题、链接、发布时间

3.4 Papers With Code(Browser 抓取)

由于 API 已失效,使用 browser 工具抓取:

# 步骤 1: 打开 trending 页面
browser.navigate(url="https://paperswithcode.com/latest")

# 步骤 2: 等待页面加载
browser.act(kind="wait", timeMs=3000)

# 步骤 3: 获取页面内容
snapshot = browser.snapshot()

# 步骤 4: 解析论文列表
# 查找 paper-card 元素,提取标题、链接、代码仓库数

3.5 Google Scholar 检索

使用 browser 工具执行以下步骤:

  1. 对每个关键词,打开 Google Scholar 搜索页面
  2. 等待页面加载完成
  3. 使用 snapshot 获取页面内容
  4. 提取搜索结果(标题、链接、摘要、作者信息)
  5. 保存结果

搜索 URL 示例:

  • https://scholar.google.com/scholar?q=visual+LLM&hl=en&as_sdt=0,5&as_ylo=2024

步骤 4: 生成报告

执行脚本:scripts/generate_report.py

报告格式:

# 🤖 AI 前沿日报

**日期**: 2026 年 03 月 31 日 星期二
**生成时间**: 10:00
**数据来源**: arXiv、量子位、Google Scholar

---

## 📌 今日要点

今日共搜集到 **X** 条 AI 前沿信息:
• 📚 arXiv 论文:X 篇
• 📰 量子位资讯:X 条
• 🔍 Google Scholar: X 条

### 重点推荐
📌 **arXiv**: [论文标题]...
📌 **量子位**: [文章标题]...
📌 **Scholar**: [论文标题]...

---

# 📚 arXiv 最新论文

## visual LLM

**📄 [论文标题]**

**🔗 链接**: [URL]

**👤 作者**: 作者列表

**📅 时间**: 发布日期

**📝 详细说明**:
摘要内容...

**研究任务**: 该研究致力于...

**Motivation**: 当前研究背景和需求...

**重要观点**: 核心贡献和观点...

---

[更多论文...]

# 📰 量子位精选

[文章详情...]

# 🔍 Google Scholar 推荐

[论文详情...]

---

## 📊 今日统计

- **arXiv 论文数**: X
- **量子位文章数**: X
- **Google Scholar 结果数**: X
- **总计信息条数**: X

---

*本日报由 AI 自动搜集整理*

步骤 5: 微信推送

在 cron 任务中,输出报告内容。如果配置了微信通道,cron 系统会自动推送。

注意: 在 cron 会话中不要直接调用 message 工具。输出报告内容即可,cron 系统会根据配置自动推送到微信。

脚本说明

scripts/fetch_arxiv.py

arXiv 论文检索脚本

输入: 无(使用内置关键词)

输出: JSON 格式的论文列表

字段:

  • title: 论文标题
  • link: arXiv 链接
  • abstract: 摘要
  • authors: 作者列表
  • published: 发布日期
  • categories: 分类
  • keyword_match: 匹配的关键词

scripts/fetch_qbitai.py

量子位资讯抓取脚本

输入: 无

输出: JSON 格式的文章列表

字段:

  • title: 文章标题
  • link: 文章链接
  • summary: 摘要
  • published: 发布时间
  • source: 量子位

scripts/fetch_google_scholar.py

Google Scholar 检索辅助脚本

功能: 生成搜索 URL 和浏览器操作指令

注意: 实际抓取由主流程使用 browser 工具完成

scripts/generate_report.py

报告生成脚本

输入: JSON 格式的各来源数据(通过 stdin)

输出: Markdown 格式的报告

功能:

  • 整合所有来源数据
  • 生成统一格式的报告
  • 支持 WeChat 格式转换

定时任务配置

创建 cron 任务

# 使用 cron.add 创建任务

任务配置要点:

  1. schedule.kind: "cron"
  2. schedule.expr: "0 10 * * *" (每天 10:00)
  3. schedule.tz: "Asia/Shanghai"
  4. payload.kind: "agentTurn"
  5. sessionTarget: "isolated" (必须)
  6. delivery: 配置微信推送通道

示例 cron 配置

{
  "name": "AI 前沿日报",
  "schedule": {
    "kind": "cron",
    "expr": "0 10 * * *",
    "tz": "Asia/Shanghai"
  },
  "payload": {
    "kind": "agentTurn",
    "message": "请执行 AI 前沿日报搜集任务,检索关键词:LLM, VLM, Machine Learning。生成详细报告并推送。",
    "timeoutSeconds": 600
  },
  "sessionTarget": "isolated",
  "delivery": {
    "mode": "announce",
    "channel": "openclaw-weixin"
  },
  "enabled": true
}

自定义配置

修改关键词

方法 1: 命令行参数(推荐)

运行脚本时直接指定关键词:

python3 scripts/fetch_arxiv.py "multimodal learning" "vision transformer" "robotics vision"

或在主脚本中:

python3 scripts/ai_daily_digest.py --keywords "multimodal learning,vision transformer,robotics"

方法 2: 环境变量

设置环境变量 ARXIV_KEYWORDS

export ARXIV_KEYWORDS="multimodal learning,vision transformer,robotics"
python3 scripts/fetch_arxiv.py --env

或在主脚本中:

export ARXIV_KEYWORDS="multimodal learning,vision transformer,robotics"
python3 scripts/ai_daily_digest.py --env-keywords

方法 3: 修改默认关键词

编辑脚本 scripts/fetch_arxiv.py 中的 DEFAULT_KEYWORDS 列表:

DEFAULT_KEYWORDS = [
    "your keyword 1",
    "your keyword 2",
    "your keyword 3"
]

修改运行时间

更新 cron 任务的 schedule.expr 字段:

  • 每天 8:00: "0 8 * * *"
  • 工作日 9:00: "0 9 * * 1-5"
  • 每 6 小时:"0 */6 * * *"

修改报告详细程度

编辑 scripts/generate_report.py 中的 format_paper_detail 函数,调整摘要长度和字段。

故障排查

arXiv API 失败

  • 检查网络连接
  • 验证 API URL: http://export.arxiv.org/api/query
  • 增加超时时间

量子位抓取失败

  • RSS 可能不可用,改用 browser 工具
  • 检查网站结构是否变化
  • 更新解析逻辑

Google Scholar 反爬

  • 使用 browser 工具模拟真实浏览器
  • 添加请求延迟
  • 考虑使用 Semantic Scholar API 替代

微信推送失败

  • 检查微信测试号配置
  • 验证 channel 是否启用
  • 确认 cron 任务配置了 delivery

使用示例

创建定时任务

用户:帮我创建一个每天搜集 AI 前沿信息的定时任务

你:

  1. 确认关键词和推送方式
  2. 调用 cron.add 创建任务
  3. 告知用户任务已创建

手动执行一次

用户:现在执行一次 AI 日报搜集

你:

  1. 执行各检索脚本
  2. 生成报告
  3. 输出报告内容

修改关键词

用户:把关键词改成"multimodal learning"和"robotics"

你:

  1. 更新脚本中的 KEYWORDS 列表
  2. 重新运行测试
  3. 确认效果

注意事项

  1. 浏览器使用: Google Scholar 检索需要使用 browser 工具,确保 browser.enabled = true
  2. 超时设置: 建议设置 600 秒超时,因为需要多次网络请求
  3. 微信格式: 报告已针对微信优化,避免复杂 Markdown
  4. 数据持久化: 如需保存历史报告,可添加文件输出功能
  5. 频率限制: 避免过于频繁的检索,遵守各平台的使用条款

相关文件

Installs
1
First Seen
Apr 3, 2026