arxiv

SKILL.md

Arxiv 论文搜索

执行流程

用户请求 → 步骤1:确认需求 → 步骤2:构建查询 → 步骤3:执行搜索 → 步骤4:整理结果 → 步骤5:后续服务

步骤 1:确认需求

询问用户两个问题:

问题 1:整理深度

你希望我如何整理搜索结果?

  1. 快速了解:表格概览 + 简短总结
  2. 深入分析:分类整理 + 关键论文详解 + 研究趋势
  3. 文献综述:保存到文件 + 完整学术综述

问题 2:结果数量

场景 建议数量
快速了解某领域 10-15 篇
深入研究某主题 20-30 篇
撰写文献综述 30-50 篇
追踪最新进展 5-10 篇

步骤 2:构建搜索查询

查询语法

arxiv 支持以下搜索语法:

语法 含义 示例
AND 同时包含 LLM AND reasoning
OR 包含其一 GPT OR LLaMA
ANDNOT 排除 transformer ANDNOT vision
"..." 精确匹配 "chain of thought"
ti: 标题搜索 ti:attention mechanism
au: 作者搜索 au:Hinton
abs: 摘要搜索 abs:reinforcement learning
cat: 分类搜索 cat:cs.CL

常用分类代码

计算机科学 (cs)

  • cs.AI - 人工智能
  • cs.CL - 计算语言学(NLP)
  • cs.CV - 计算机视觉
  • cs.LG - 机器学习
  • cs.NE - 神经网络与进化计算
  • cs.RO - 机器人学
  • cs.SE - 软件工程

统计学 (stat)

  • stat.ML - 机器学习(统计方向)

电子工程 (eess)

  • eess.AS - 音频与语音处理

查询构建策略

用户说"找 LLM 相关论文" → 基础查询:LLM OR "large language model" → 如果结果太泛,追问具体方向后细化

用户说"找某作者的论文" → 使用 au:作者名 → 注意:arxiv 作者名格式为 lastname_firstname

用户说"找某领域最新进展" → 组合领域关键词 + 限制分类 → 示例:"instruction tuning" AND cat:cs.CL

用户给出模糊需求 → 先用宽泛查询获取 5-10 篇 → 根据结果中的关键词优化查询 → 再次搜索获取更精准结果


步骤 3:执行搜索

脚本位置:scripts/search.py(相对于本 skill 目录)

python scripts/search.py "查询语句" -n 数量

参数说明

  • 第一个参数:查询语句(必需)
  • -n:返回数量(默认 20)

示例

# 搜索 LLM 推理相关论文,返回 30 篇
python scripts/search.py "LLM AND reasoning" -n 30

# 搜索特定作者
python scripts/search.py "au:bengio" -n 15

# 搜索特定分类下的主题
python scripts/search.py "attention AND cat:cs.CV" -n 20

依赖:需要安装 arxiv Python 库(pip install arxiv


步骤 4:整理结果

模式 A:快速了解

输出结构

## 搜索结果

[表格:序号 | 标题 | 作者 | 日期 | PDF]

## 快速总结

这批论文主要聚焦于 [领域],核心方向包括:
1. [方向1]:[代表性工作]
2. [方向2]:[代表性工作]

值得优先关注的论文:#X、#Y、#Z

模式 B:深入分析

输出结构

## 搜索结果

[表格]

## 领域概览

[1-2 段描述研究领域背景和当前主要方向]

## 主题分类

### 主题 1:[名称](N 篇)

| 论文 | 核心贡献 | 方法特点 |
|------|----------|----------|
| #1 标题 | 解决了什么问题 | 用了什么方法 |
| #2 标题 | ... | ... |

### 主题 2:[名称](N 篇)
...

## 关键论文详解

### 推荐 1:[论文标题]
- **问题**:该论文要解决什么问题
- **方法**:核心技术方案
- **结果**:主要实验结论和数据
- **价值**:为什么值得深入阅读

### 推荐 2:...

## 研究趋势

### 热点方向
- [方向1]:被 N 篇论文关注,代表性工作...
- [方向2]:...

### 新兴方法
- [方法1]:被 N 篇论文采用,特点是...
- [方法2]:...

### 开放问题
- [问题1]:多篇论文提到但尚未解决
- [问题2]:...

模式 C:文献综述

步骤

  1. 询问用户保存路径(默认:./arxiv-review-{主题}-{日期}.md

  2. 生成综述文件,包含:

    • 摘要(200字以内)
    • 研究背景
    • 主题分类与详解(同模式 B)
    • 研究趋势分析
    • 研究空白与未来方向
    • 参考文献列表
  3. 参考文献格式

    [1] 作者. 标题. arXiv:XXXX.XXXXX, 年份. URL
    

步骤 5:后续服务

完成整理后,询问:

是否需要深入阅读某篇具体论文?请告诉我编号或标题。

单篇论文深入分析

如果用户选择某篇论文,提供以下分析:

## [论文标题]

**基本信息**
- 作者:[作者列表]
- 发布日期:[日期]
- PDF:[链接]
- 分类:[arxiv 分类]

**摘要翻译**
[中文翻译,保持学术准确性]

**核心内容**

### 1. 研究问题
- 该论文要解决什么问题?
- 为什么这个问题重要?
- 现有方法的局限性是什么?

### 2. 方法创新
- 核心技术方案
- 与现有方法的区别
- 关键设计选择及其理由

### 3. 实验结论
- 主要实验设置
- 核心结果数据
- 消融实验发现

### 4. 局限与展望
- 作者承认的局限
- 潜在的改进方向

**阅读建议**
- 如果你关注 [X],重点看 Section [N]
- 如果你关注 [Y],重点看 Section [M]

论文质量判断标准

在推荐关键论文时,按以下标准评估:

维度 高质量信号 低质量信号
问题价值 解决实际痛点、有广泛影响 边缘问题、缺乏应用场景
方法创新 新思路、新框架、新范式 简单改进、参数调优
实验充分 多数据集、消融实验、对比公平 单数据集、缺少对比
结果显著 大幅提升、突破瓶颈 微小改进、在误差范围内
作者背景 知名团队、顶会记录 首次发表、无背景

注意:arxiv 是预印本,未经同行评审。对于重要决策,建议追踪论文是否被顶会接收。


边界情况处理

搜索结果为空

  1. 检查查询语法是否正确
  2. 尝试更宽泛的关键词
  3. 移除分类限制
  4. 告知用户并建议替代查询

搜索结果过多且分散

  1. 询问用户更具体的兴趣方向
  2. 添加分类限制(cat:cs.XX
  3. 使用更精确的短语搜索("..."

用户需求模糊

不要猜测,主动询问:

  • "你是想了解 [A方向] 还是 [B方向]?"
  • "你更关注理论方法还是应用场景?"
  • "需要限定在某个时间范围内吗?"

非英文论文需求

arxiv 主要是英文论文,如果用户需要中文文献:

  • 说明 arxiv 的语言限制
  • 建议使用知网、万方等中文学术平台

总结原则

  • 聚焦核心贡献:每篇论文用 1-2 句话说清楚它做了什么
  • 避免罗列:提炼和归纳,不是复制摘要
  • 建立联系:指出论文之间的关系(互补、对比、改进、引用)
  • 突出价值:帮助用户判断哪些论文值得时间投入
  • 保持客观:呈现论文的局限性,不过度吹捧
Weekly Installs
1
GitHub Stars
16
First Seen
14 days ago
Installed on
amp1
cline1
qoder1
trae-cn1
opencode1
cursor1