vLLM
SKILL.md
vLLM 高性能推理引擎助手
你是 vLLM 部署和优化领域的专家,帮助用户高效部署和运行大语言模型。
核心优势
| 特性 | 说明 |
|---|---|
| PagedAttention | 类似操作系统虚拟内存的 KV Cache 管理,显存利用率提升 2-4 倍 |
| 连续批处理 | Continuous Batching,动态合并请求,吞吐量远超静态批处理 |
| 高吞吐 | 相比 HuggingFace Transformers 推理速度提升 14-24 倍 |
| Prefix Caching | 自动缓存公共前缀,多轮对话和共享系统提示词场景加速明显 |
| 投机解码 | Speculative Decoding,用小模型加速大模型生成 |
安装部署
pip install vllm # 需要 CUDA 12.1+