语音场景优化

R — 原文 (Reading)

Perplexity Voice 要求"请快速说话"、仅支持英语、禁止说话人识别、禁止唱歌哼唱、禁止模仿；Claude Mobile 强调"始终先给答案、无前言"、列表在小屏幕上更易扫描；Sesame AI Maya 专为语音优化的对话模式。核心模式：简洁优先、口语化适配、音频安全约束、语言限制、去除视觉格式。

I — 方法论骨架 (Interpretation)

简洁优先原则：语音场景中用户注意力窗口极短，回答必须开门见山，禁止"好的，让我来回答您的问题"等前言式表达。
口语化转换：将书面语转换为自然口语——使用短句、主动语态、日常词汇，避免从句嵌套和术语堆砌。
格式降级：去除 Markdown 表格、代码块、嵌套列表等视觉格式，改用自然语言描述或简短列举。
音频安全约束：禁止识别特定说话人身份、禁止模仿真实人物声线特征、禁止唱歌或哼唱旋律。
语言限制声明：明确支持的语种范围，超出范围时引导用户调整设置而非强行处理。
长度自适应：根据问题复杂度动态调整回答长度——简单问题一两句话，复杂问题控制在合理时长内。

A1 — 案例分析 (Past Application)

案例: Perplexity Voice 的音频安全边界

问题: 语音交互中用户可能要求模仿名人声音、识别通话对象、或要求 AI 唱歌，这些行为涉及隐私、版权和安全风险。
设计模式的使用: Perplexity Voice 在系统提示中设置明确禁区——不对语音输入进行说话人识别（"No speaker identification from voice"），不执行唱歌或哼唱请求，不进行人物模仿。同时限定仅支持英语，超出能力范围时引导用户修改设置。
结论: 语音场景有独特的安全边界（声纹、模仿、演唱），这些在纯文本场景中不存在，需要专项防护。

案例: Claude Mobile 的回答优先策略

问题: 移动端语音回答中，用户听到冗长的开场白会快速失去耐心，尤其在驾驶、行走等场景下。
设计模式的使用: Claude Mobile 明确指令"Always lead with answer. No preamble."，将答案前置，解释后置。对于不同复杂度的问题设定长度层级——简单问题 1-2 句，操作指南用短列表，实质性问题 2-3 段。
结论: 语音场景对延迟感知极度敏感，去除前言可显著提升用户满意度和信息获取效率。

A2 — 触发场景 (Future Trigger) ★

用户在什么情境下需要?

设计语音助手（如智能音箱、车载助手）的系统提示
为现有文本聊天机器人添加语音交互模式
构建电话客服 AI 的对话脚本
优化播客生成或有声内容合成中的口语表达

语言信号

"语音场景下的输出优化"
"需要口语化回答"
"用户通过语音提问"
"回答会被朗读出来"
"如何让 AI 说话更自然"

与相邻 skill 的区分

与 mobile-adaptation 区别：移动适配关注屏幕尺寸约束，语音优化关注听觉通道约束；但两者都强调简洁优先，常联合使用
与 citation-system 区别：引用系统在语音场景中需要特殊处理（无法使用视觉标记），但语音优化不涉及引用格式设计本身

E — 可执行步骤 (Execution)

步骤 1：设定回答长度层级 - 完成标准：为问题复杂度定义 3-4 个层级（简单/操作/中等/复杂），每个层级规定最大句数或预估朗读时长，并在系统提示中以示例说明。
步骤 2：编写前言禁令与答案前置规则 - 完成标准：明确声明"禁止在回答开头添加确认性前言"，提供正确和错误的示例对比（如错误："好的，让我为您解答..."，正确：直接给出答案）。
步骤 3：定义格式降级规则 - 完成标准：列出需降级的视觉格式（表格→自然语言描述、嵌套列表→扁平列举、代码块→口语化步骤说明），并给出每种降级的示例。
步骤 4：设定音频安全边界 - 完成标准：明确禁止的行为清单（说话人识别、声线模仿、唱歌哼唱、人物扮演），定义超出能力范围时的标准回退话术。
步骤 5：添加口语化转换指南 - 完成标准：列出书面语到口语的转换规则（从句→短句、被动→主动、术语→日常词汇），提供 3 个以上转换示例。

B — 边界 (Boundary) ★

不要在以下情况使用

纯文本聊天界面，用户通过键盘输入和屏幕阅读
语音合成（TTS）引擎的技术选型或参数调优
音频信号处理（降噪、回声消除等）
多模态场景中语音仅为辅助通道（如视频会议中的字幕场景）

常见失败模式

照搬文本输出：直接将文本聊天回复用于语音场景，导致冗长前言、视觉格式（表格、代码块）被朗读出来，用户体验极差
忽视音频独有风险：仅优化表达方式但未设置说话人识别、模仿等音频特有的安全边界
过度简化：将所有回答压缩为一句话，丢失必要信息和上下文，应按复杂度分级而非一刀切
忽略语言限制：未声明支持的语种范围，导致多语言场景下输出混乱或质量下降

voice-optimization

语音场景优化

R — 原文 (Reading)

I — 方法论骨架 (Interpretation)

A1 — 案例分析 (Past Application)

案例: Perplexity Voice 的音频安全边界

案例: Claude Mobile 的回答优先策略

A2 — 触发场景 (Future Trigger) ★

用户在什么情境下需要?

语言信号

与相邻 skill 的区分

E — 可执行步骤 (Execution)

B — 边界 (Boundary) ★

不要在以下情况使用

常见失败模式

More from kangarooking/system-prompt-skills

injection-defense

memory-system

persona-design

agent-delegation

citation-system

code-engineering