tts-voice-synthesis
SKILL.md
TTS 语音合成服务
任务目标
- 本 Skill 用于:将文本转换为高质量语音,支持音色克隆、情感适配、流式生成和多语言支持
- 能力包含:
- 角色音色自动采集与克隆(从参考音频提取音色特征)
- 拟人化语义适配配音(根据文本情绪自动调整语音语调、语速、音调)
- 流式实时配音(支持边输入文本边生成语音)
- 多语言与方言支持(中文、英文及多种方言)
- 双模型选择(1.7B 高质量模型、0.6B 快速模型)
- 触发条件:当需要将文本转换为语音、克隆特定音色、生成情感化配音时使用
前置准备
- 模型下载:根据选择的 TTS 模型下载对应的权重,详见 references/model_config.md
- 硬件要求:
- GPU:推荐使用 8GB+ 显存的 GPU(0.6B 模型可在 CPU 上运行)
- 内存:建议 16GB+ 系统内存
- 磁盘空间:至少 10GB 可用空间(模型权重约 3-5GB)
- 依赖配置:确保已安装所需的 Python 依赖包
操作步骤
模式一:基础语音合成
-
文本准备
- 确认待合成的文本内容
- 智能体将分析文本情绪和语义特征
-
选择音色
- 使用预置音色(见 references/model_config.md)
- 或使用已克隆的自定义音色
-
执行合成
- 调用
scripts/tts_generate.py进行语音生成 - 根据情绪分析结果自动设置语音参数
- 调用
-
验证输出
- 检查生成的音频质量和情感匹配度
- 如有需要,调整参数重新生成
模式二:音色克隆
-
准备参考音频
- 提供目标音色的参考音频文件(3-30 秒,清晰语音)
- 确保参考音频无背景噪音、音质清晰
-
提取音色特征
- 调用
scripts/voice_clone.py提取音色特征 - 保存为可复用的音色模型
- 调用
-
使用克隆音色
- 使用提取的音色模型生成语音
- 可应用于不同文本的配音
模式三:流式实时配音
-
文本分段
- 将长文本分段处理(智能体自动完成)
- 确保分段自然,不会截断语义
-
流式生成
- 调用
scripts/tts_generate.py启用流式模式 - 逐步生成并输出音频片段
- 调用
-
实时合并
- 将生成的音频片段实时合并
- 输出完整的配音文件
模式四:情感适配配音
-
文本情绪分析
- 智能体分析文本的情绪倾向(高兴、悲伤、愤怒、平静等)
- 识别关键情感词和语气
-
语音参数调整
- 根据情绪自动调整:
- 语速(悲伤时放慢,兴奋时加快)
- 音调(悲伤时降低,兴奋时提高)
- 音量(根据情感强度调整)
- 根据情绪自动调整:
-
生成验证
- 生成情感化语音
- 验证情感表达是否准确
资源索引
- 核心脚本:
- scripts/tts_generate.py(TTS 语音生成)
- scripts/voice_clone.py(音色克隆)
- 参考文档:
- references/model_config.md(模型配置和选择指南)
- references/emotion_guide.md(情感标注和适配指南)
- references/usage_examples.md(使用示例)
注意事项
- 模型选择:
- 1.7B 模型:音质更高,适合高质量配音、有声书等场景
- 0.6B 模型:速度更快,适合实时交互、智能客服等场景
- 音色克隆:
- 参考音频应清晰、无背景噪音
- 时长建议 5-15 秒,最短不少于 3 秒
- 单人语音效果最佳,避免多人混合音频
- 流式生成:
- 适合长文本和实时交互场景
- 会产生多个临时音频片段
- 情感适配:
- 文本情绪分析由智能体完成
- 最终效果取决于情感标注的准确性
- 可手动调整语音参数进行微调
使用示例
- 基础语音合成:
python scripts/tts_generate.py \ --text "你好,欢迎使用语音合成服务" \ --output_path ./output/hello.wav \ --model_size 1.7B \ --voice default - 音色克隆:
python scripts/voice_clone.py \ --reference_audio ./reference.wav \ --voice_name my_voice \ --output_dir ./voices - 情感化配音:
python scripts/tts_generate.py \ --text "今天真是太开心了!" \ --output_path ./output/happy.wav \ --emotion happy \ --speed 1.2 \ --pitch 1.1 - 流式生成:
python scripts/tts_generate.py \ --text_file ./long_text.txt \ --output_path ./output/stream_output.wav \ --streaming true
Weekly Installs
3
Source
www.modelscope.…ynthesisFirst Seen
7 days ago
Installed on
opencode3
codex3
amp2
cline2
cursor2
kimi-cli2