arxiv
SKILL.md
Arxiv 论文搜索
执行流程
用户请求 → 步骤1:确认需求 → 步骤2:构建查询 → 步骤3:执行搜索 → 步骤4:整理结果 → 步骤5:后续服务
步骤 1:确认需求
询问用户两个问题:
问题 1:整理深度
你希望我如何整理搜索结果?
- 快速了解:表格概览 + 简短总结
- 深入分析:分类整理 + 关键论文详解 + 研究趋势
- 文献综述:保存到文件 + 完整学术综述
问题 2:结果数量
| 场景 | 建议数量 |
|---|---|
| 快速了解某领域 | 10-15 篇 |
| 深入研究某主题 | 20-30 篇 |
| 撰写文献综述 | 30-50 篇 |
| 追踪最新进展 | 5-10 篇 |
步骤 2:构建搜索查询
查询语法
arxiv 支持以下搜索语法:
| 语法 | 含义 | 示例 |
|---|---|---|
AND |
同时包含 | LLM AND reasoning |
OR |
包含其一 | GPT OR LLaMA |
ANDNOT |
排除 | transformer ANDNOT vision |
"..." |
精确匹配 | "chain of thought" |
ti: |
标题搜索 | ti:attention mechanism |
au: |
作者搜索 | au:Hinton |
abs: |
摘要搜索 | abs:reinforcement learning |
cat: |
分类搜索 | cat:cs.CL |
常用分类代码
计算机科学 (cs)
cs.AI- 人工智能cs.CL- 计算语言学(NLP)cs.CV- 计算机视觉cs.LG- 机器学习cs.NE- 神经网络与进化计算cs.RO- 机器人学cs.SE- 软件工程
统计学 (stat)
stat.ML- 机器学习(统计方向)
电子工程 (eess)
eess.AS- 音频与语音处理
查询构建策略
用户说"找 LLM 相关论文"
→ 基础查询:LLM OR "large language model"
→ 如果结果太泛,追问具体方向后细化
用户说"找某作者的论文"
→ 使用 au:作者名
→ 注意:arxiv 作者名格式为 lastname_firstname
用户说"找某领域最新进展"
→ 组合领域关键词 + 限制分类
→ 示例:"instruction tuning" AND cat:cs.CL
用户给出模糊需求 → 先用宽泛查询获取 5-10 篇 → 根据结果中的关键词优化查询 → 再次搜索获取更精准结果
步骤 3:执行搜索
脚本位置:scripts/search.py(相对于本 skill 目录)
python scripts/search.py "查询语句" -n 数量
参数说明:
- 第一个参数:查询语句(必需)
-n:返回数量(默认 20)
示例:
# 搜索 LLM 推理相关论文,返回 30 篇
python scripts/search.py "LLM AND reasoning" -n 30
# 搜索特定作者
python scripts/search.py "au:bengio" -n 15
# 搜索特定分类下的主题
python scripts/search.py "attention AND cat:cs.CV" -n 20
依赖:需要安装 arxiv Python 库(pip install arxiv)
步骤 4:整理结果
模式 A:快速了解
输出结构:
## 搜索结果
[表格:序号 | 标题 | 作者 | 日期 | PDF]
## 快速总结
这批论文主要聚焦于 [领域],核心方向包括:
1. [方向1]:[代表性工作]
2. [方向2]:[代表性工作]
值得优先关注的论文:#X、#Y、#Z
模式 B:深入分析
输出结构:
## 搜索结果
[表格]
## 领域概览
[1-2 段描述研究领域背景和当前主要方向]
## 主题分类
### 主题 1:[名称](N 篇)
| 论文 | 核心贡献 | 方法特点 |
|------|----------|----------|
| #1 标题 | 解决了什么问题 | 用了什么方法 |
| #2 标题 | ... | ... |
### 主题 2:[名称](N 篇)
...
## 关键论文详解
### 推荐 1:[论文标题]
- **问题**:该论文要解决什么问题
- **方法**:核心技术方案
- **结果**:主要实验结论和数据
- **价值**:为什么值得深入阅读
### 推荐 2:...
## 研究趋势
### 热点方向
- [方向1]:被 N 篇论文关注,代表性工作...
- [方向2]:...
### 新兴方法
- [方法1]:被 N 篇论文采用,特点是...
- [方法2]:...
### 开放问题
- [问题1]:多篇论文提到但尚未解决
- [问题2]:...
模式 C:文献综述
步骤:
-
询问用户保存路径(默认:
./arxiv-review-{主题}-{日期}.md) -
生成综述文件,包含:
- 摘要(200字以内)
- 研究背景
- 主题分类与详解(同模式 B)
- 研究趋势分析
- 研究空白与未来方向
- 参考文献列表
-
参考文献格式:
[1] 作者. 标题. arXiv:XXXX.XXXXX, 年份. URL
步骤 5:后续服务
完成整理后,询问:
是否需要深入阅读某篇具体论文?请告诉我编号或标题。
单篇论文深入分析
如果用户选择某篇论文,提供以下分析:
## [论文标题]
**基本信息**
- 作者:[作者列表]
- 发布日期:[日期]
- PDF:[链接]
- 分类:[arxiv 分类]
**摘要翻译**
[中文翻译,保持学术准确性]
**核心内容**
### 1. 研究问题
- 该论文要解决什么问题?
- 为什么这个问题重要?
- 现有方法的局限性是什么?
### 2. 方法创新
- 核心技术方案
- 与现有方法的区别
- 关键设计选择及其理由
### 3. 实验结论
- 主要实验设置
- 核心结果数据
- 消融实验发现
### 4. 局限与展望
- 作者承认的局限
- 潜在的改进方向
**阅读建议**
- 如果你关注 [X],重点看 Section [N]
- 如果你关注 [Y],重点看 Section [M]
论文质量判断标准
在推荐关键论文时,按以下标准评估:
| 维度 | 高质量信号 | 低质量信号 |
|---|---|---|
| 问题价值 | 解决实际痛点、有广泛影响 | 边缘问题、缺乏应用场景 |
| 方法创新 | 新思路、新框架、新范式 | 简单改进、参数调优 |
| 实验充分 | 多数据集、消融实验、对比公平 | 单数据集、缺少对比 |
| 结果显著 | 大幅提升、突破瓶颈 | 微小改进、在误差范围内 |
| 作者背景 | 知名团队、顶会记录 | 首次发表、无背景 |
注意:arxiv 是预印本,未经同行评审。对于重要决策,建议追踪论文是否被顶会接收。
边界情况处理
搜索结果为空
- 检查查询语法是否正确
- 尝试更宽泛的关键词
- 移除分类限制
- 告知用户并建议替代查询
搜索结果过多且分散
- 询问用户更具体的兴趣方向
- 添加分类限制(
cat:cs.XX) - 使用更精确的短语搜索(
"...")
用户需求模糊
不要猜测,主动询问:
- "你是想了解 [A方向] 还是 [B方向]?"
- "你更关注理论方法还是应用场景?"
- "需要限定在某个时间范围内吗?"
非英文论文需求
arxiv 主要是英文论文,如果用户需要中文文献:
- 说明 arxiv 的语言限制
- 建议使用知网、万方等中文学术平台
总结原则
- 聚焦核心贡献:每篇论文用 1-2 句话说清楚它做了什么
- 避免罗列:提炼和归纳,不是复制摘要
- 建立联系:指出论文之间的关系(互补、对比、改进、引用)
- 突出价值:帮助用户判断哪些论文值得时间投入
- 保持客观:呈现论文的局限性,不过度吹捧
Weekly Installs
1
Repository
xueheng-li/ai-t…allationGitHub Stars
7
First Seen
6 days ago
Security Audits
Installed on
amp1
cline1
openclaw1
trae1
trae-cn1
opencode1