Arxiv 论文搜索

执行流程

用户请求 → 步骤1:确认需求 → 步骤2:构建查询 → 步骤3:执行搜索 → 步骤4:整理结果 → 步骤5:后续服务

步骤 1：确认需求

询问用户两个问题：

问题 1：整理深度

你希望我如何整理搜索结果？

快速了解：表格概览 + 简短总结

深入分析：分类整理 + 关键论文详解 + 研究趋势

文献综述：保存到文件 + 完整学术综述

问题 2：结果数量

场景	建议数量
快速了解某领域	10-15 篇
深入研究某主题	20-30 篇
撰写文献综述	30-50 篇
追踪最新进展	5-10 篇

步骤 2：构建搜索查询

查询语法

arxiv 支持以下搜索语法：

语法	含义	示例
`AND`	同时包含	`LLM AND reasoning`
`OR`	包含其一	`GPT OR LLaMA`
`ANDNOT`	排除	`transformer ANDNOT vision`
`"..."`	精确匹配	`"chain of thought"`
`ti:`	标题搜索	`ti:attention mechanism`
`au:`	作者搜索	`au:Hinton`
`abs:`	摘要搜索	`abs:reinforcement learning`
`cat:`	分类搜索	`cat:cs.CL`

常用分类代码

计算机科学 (cs)

cs.AI - 人工智能
cs.CL - 计算语言学（NLP）
cs.CV - 计算机视觉
cs.LG - 机器学习
cs.NE - 神经网络与进化计算
cs.RO - 机器人学
cs.SE - 软件工程

统计学 (stat)

stat.ML - 机器学习（统计方向）

电子工程 (eess)

eess.AS - 音频与语音处理

查询构建策略

用户说"找 LLM 相关论文" → 基础查询：LLM OR "large language model" → 如果结果太泛，追问具体方向后细化

用户说"找某作者的论文" → 使用 au:作者名 → 注意：arxiv 作者名格式为 lastname_firstname

用户说"找某领域最新进展" → 组合领域关键词 + 限制分类 → 示例："instruction tuning" AND cat:cs.CL

用户给出模糊需求 → 先用宽泛查询获取 5-10 篇 → 根据结果中的关键词优化查询 → 再次搜索获取更精准结果

步骤 3：执行搜索

脚本位置：scripts/search.py（相对于本 skill 目录）

python scripts/search.py "查询语句" -n 数量

参数说明：

第一个参数：查询语句（必需）
-n：返回数量（默认 20）

示例：

# 搜索 LLM 推理相关论文，返回 30 篇
python scripts/search.py "LLM AND reasoning" -n 30

# 搜索特定作者
python scripts/search.py "au:bengio" -n 15

# 搜索特定分类下的主题
python scripts/search.py "attention AND cat:cs.CV" -n 20

依赖：需要安装 arxiv Python 库（pip install arxiv）

步骤 4：整理结果

模式 A：快速了解

输出结构：

## 搜索结果

[表格：序号 | 标题 | 作者 | 日期 | PDF]

## 快速总结

这批论文主要聚焦于 [领域]，核心方向包括：
1. [方向1]：[代表性工作]
2. [方向2]：[代表性工作]

值得优先关注的论文：#X、#Y、#Z

模式 B：深入分析

输出结构：

## 搜索结果

[表格]

## 领域概览

[1-2 段描述研究领域背景和当前主要方向]

## 主题分类

### 主题 1：[名称]（N 篇）

| 论文 | 核心贡献 | 方法特点 |
|------|----------|----------|
| #1 标题 | 解决了什么问题 | 用了什么方法 |
| #2 标题 | ... | ... |

### 主题 2：[名称]（N 篇）
...

## 关键论文详解

### 推荐 1：[论文标题]
- **问题**：该论文要解决什么问题
- **方法**：核心技术方案
- **结果**：主要实验结论和数据
- **价值**：为什么值得深入阅读

### 推荐 2：...

## 研究趋势

### 热点方向
- [方向1]：被 N 篇论文关注，代表性工作...
- [方向2]：...

### 新兴方法
- [方法1]：被 N 篇论文采用，特点是...
- [方法2]：...

### 开放问题
- [问题1]：多篇论文提到但尚未解决
- [问题2]：...

模式 C：文献综述

步骤：

询问用户保存路径（默认：./arxiv-review-{主题}-{日期}.md）
生成综述文件，包含：
- 摘要（200字以内）
- 研究背景
- 主题分类与详解（同模式 B）
- 研究趋势分析
- 研究空白与未来方向
- 参考文献列表

参考文献格式：

[1] 作者. 标题. arXiv:XXXX.XXXXX, 年份. URL

步骤 5：后续服务

完成整理后，询问：

是否需要深入阅读某篇具体论文？请告诉我编号或标题。

单篇论文深入分析

如果用户选择某篇论文，提供以下分析：

## [论文标题]

**基本信息**
- 作者：[作者列表]
- 发布日期：[日期]
- PDF：[链接]
- 分类：[arxiv 分类]

**摘要翻译**
[中文翻译，保持学术准确性]

**核心内容**

### 1. 研究问题
- 该论文要解决什么问题？
- 为什么这个问题重要？
- 现有方法的局限性是什么？

### 2. 方法创新
- 核心技术方案
- 与现有方法的区别
- 关键设计选择及其理由

### 3. 实验结论
- 主要实验设置
- 核心结果数据
- 消融实验发现

### 4. 局限与展望
- 作者承认的局限
- 潜在的改进方向

**阅读建议**
- 如果你关注 [X]，重点看 Section [N]
- 如果你关注 [Y]，重点看 Section [M]

论文质量判断标准

在推荐关键论文时，按以下标准评估：

维度	高质量信号	低质量信号
问题价值	解决实际痛点、有广泛影响	边缘问题、缺乏应用场景
方法创新	新思路、新框架、新范式	简单改进、参数调优
实验充分	多数据集、消融实验、对比公平	单数据集、缺少对比
结果显著	大幅提升、突破瓶颈	微小改进、在误差范围内
作者背景	知名团队、顶会记录	首次发表、无背景

注意：arxiv 是预印本，未经同行评审。对于重要决策，建议追踪论文是否被顶会接收。

边界情况处理

搜索结果为空

检查查询语法是否正确
尝试更宽泛的关键词
移除分类限制
告知用户并建议替代查询

搜索结果过多且分散

询问用户更具体的兴趣方向
添加分类限制（cat:cs.XX）
使用更精确的短语搜索（"..."）

用户需求模糊

不要猜测，主动询问：

"你是想了解 [A方向] 还是 [B方向]？"
"你更关注理论方法还是应用场景？"
"需要限定在某个时间范围内吗？"

非英文论文需求

arxiv 主要是英文论文，如果用户需要中文文献：

说明 arxiv 的语言限制
建议使用知网、万方等中文学术平台

总结原则

聚焦核心贡献：每篇论文用 1-2 句话说清楚它做了什么
避免罗列：提炼和归纳，不是复制摘要
建立联系：指出论文之间的关系（互补、对比、改进、引用）
突出价值：帮助用户判断哪些论文值得时间投入
保持客观：呈现论文的局限性，不过度吹捧