voice-optimization

Installation
SKILL.md

语音场景优化

R — 原文 (Reading)

Perplexity Voice 要求"请快速说话"、仅支持英语、禁止说话人识别、禁止唱歌哼唱、禁止模仿;Claude Mobile 强调"始终先给答案、无前言"、列表在小屏幕上更易扫描;Sesame AI Maya 专为语音优化的对话模式。核心模式:简洁优先、口语化适配、音频安全约束、语言限制、去除视觉格式。

I — 方法论骨架 (Interpretation)

  1. 简洁优先原则:语音场景中用户注意力窗口极短,回答必须开门见山,禁止"好的,让我来回答您的问题"等前言式表达。
  2. 口语化转换:将书面语转换为自然口语——使用短句、主动语态、日常词汇,避免从句嵌套和术语堆砌。
  3. 格式降级:去除 Markdown 表格、代码块、嵌套列表等视觉格式,改用自然语言描述或简短列举。
  4. 音频安全约束:禁止识别特定说话人身份、禁止模仿真实人物声线特征、禁止唱歌或哼唱旋律。
  5. 语言限制声明:明确支持的语种范围,超出范围时引导用户调整设置而非强行处理。
  6. 长度自适应:根据问题复杂度动态调整回答长度——简单问题一两句话,复杂问题控制在合理时长内。

A1 — 案例分析 (Past Application)

案例: Perplexity Voice 的音频安全边界

  • 问题: 语音交互中用户可能要求模仿名人声音、识别通话对象、或要求 AI 唱歌,这些行为涉及隐私、版权和安全风险。
  • 设计模式的使用: Perplexity Voice 在系统提示中设置明确禁区——不对语音输入进行说话人识别("No speaker identification from voice"),不执行唱歌或哼唱请求,不进行人物模仿。同时限定仅支持英语,超出能力范围时引导用户修改设置。
  • 结论: 语音场景有独特的安全边界(声纹、模仿、演唱),这些在纯文本场景中不存在,需要专项防护。

案例: Claude Mobile 的回答优先策略

  • 问题: 移动端语音回答中,用户听到冗长的开场白会快速失去耐心,尤其在驾驶、行走等场景下。
  • 设计模式的使用: Claude Mobile 明确指令"Always lead with answer. No preamble.",将答案前置,解释后置。对于不同复杂度的问题设定长度层级——简单问题 1-2 句,操作指南用短列表,实质性问题 2-3 段。
  • 结论: 语音场景对延迟感知极度敏感,去除前言可显著提升用户满意度和信息获取效率。

A2 — 触发场景 (Future Trigger) ★

用户在什么情境下需要?

  1. 设计语音助手(如智能音箱、车载助手)的系统提示
  2. 为现有文本聊天机器人添加语音交互模式
  3. 构建电话客服 AI 的对话脚本
  4. 优化播客生成或有声内容合成中的口语表达

语言信号

  • "语音场景下的输出优化"
  • "需要口语化回答"
  • "用户通过语音提问"
  • "回答会被朗读出来"
  • "如何让 AI 说话更自然"

与相邻 skill 的区分

  • mobile-adaptation 区别:移动适配关注屏幕尺寸约束,语音优化关注听觉通道约束;但两者都强调简洁优先,常联合使用
  • citation-system 区别:引用系统在语音场景中需要特殊处理(无法使用视觉标记),但语音优化不涉及引用格式设计本身

E — 可执行步骤 (Execution)

  1. 步骤 1:设定回答长度层级 - 完成标准:为问题复杂度定义 3-4 个层级(简单/操作/中等/复杂),每个层级规定最大句数或预估朗读时长,并在系统提示中以示例说明。
  2. 步骤 2:编写前言禁令与答案前置规则 - 完成标准:明确声明"禁止在回答开头添加确认性前言",提供正确和错误的示例对比(如错误:"好的,让我为您解答...",正确:直接给出答案)。
  3. 步骤 3:定义格式降级规则 - 完成标准:列出需降级的视觉格式(表格→自然语言描述、嵌套列表→扁平列举、代码块→口语化步骤说明),并给出每种降级的示例。
  4. 步骤 4:设定音频安全边界 - 完成标准:明确禁止的行为清单(说话人识别、声线模仿、唱歌哼唱、人物扮演),定义超出能力范围时的标准回退话术。
  5. 步骤 5:添加口语化转换指南 - 完成标准:列出书面语到口语的转换规则(从句→短句、被动→主动、术语→日常词汇),提供 3 个以上转换示例。

B — 边界 (Boundary) ★

不要在以下情况使用

  • 纯文本聊天界面,用户通过键盘输入和屏幕阅读
  • 语音合成(TTS)引擎的技术选型或参数调优
  • 音频信号处理(降噪、回声消除等)
  • 多模态场景中语音仅为辅助通道(如视频会议中的字幕场景)

常见失败模式

  • 照搬文本输出:直接将文本聊天回复用于语音场景,导致冗长前言、视觉格式(表格、代码块)被朗读出来,用户体验极差
  • 忽视音频独有风险:仅优化表达方式但未设置说话人识别、模仿等音频特有的安全边界
  • 过度简化:将所有回答压缩为一句话,丢失必要信息和上下文,应按复杂度分级而非一刀切
  • 忽略语言限制:未声明支持的语种范围,导致多语言场景下输出混乱或质量下降
Related skills
Installs
4
GitHub Stars
58
First Seen
6 days ago