moss-tts-voice
SKILL.md
MOSS-TTS 语音合成
⚠️ 注意:本工具负责生成音频文件,发送到各渠道需要配合其他工具(如 OpenClaw message 工具)
快速开始(3 步)
1. 获取 API Key
访问 https://studio.mosi.cn → 注册/登录 → 控制台 → API 密钥 → 创建
export MOSS_API_KEY="sk-你的密钥"
2. 安装依赖
# 系统依赖
brew install python3 ffmpeg
# Python 依赖
pip3 install requests
3. 生成语音
python3 scripts/tts.py \
--text "你好,我是MOSS" \
--channel feishu \
--json
输出:
{
"success": true,
"file": "/tmp/openclaw/moss-tts/voice-xxx.ogg",
"format": "ogg"
}
⚠️ 隐私与安全
API Key 安全
- 不要提交到 Git:将
MOSS_API_KEY添加到.gitignore - 使用环境变量:不要在代码中硬编码密钥
- 定期轮换:建议定期更换 API Key
语音数据上传
- 克隆音色:上传的音频会存储在 MOSS Studio 服务器
- 实时克隆:每次请求都会上传音频数据到 MOSS API
- 数据保留:参考 MOSS Studio 隐私政策
建议:
- 使用公开/非敏感音频进行克隆
- 避免上传包含敏感信息的录音
- 定期清理 MOSS Studio 中不需要的音色
功能说明
本工具提供以下功能:
- 文本转语音 - 将文本转换为自然语音
- 实时克隆 - 从音频即时克隆声音
- 预注册音色 - 上传并保存音色供后续使用
- 格式转换 - 自动转换为适合各渠道的格式
不包含:
- 直接发送到 IM 渠道(需要配合其他工具)
- 音色管理(删除、修改等)
使用模式
模式一:实时克隆
python3 scripts/tts.py \
--text "要说的内容" \
--reference_audio "参考音频.ogg" \
--channel feishu
模式二:预注册音色(推荐)
# 1. 上传并克隆
curl -X POST https://studio.mosi.cn/api/v1/files/upload \
-H "Authorization: Bearer $MOSS_API_KEY" \
-F "file=@voice.ogg"
# → {"file_id": "YOUR_FILE_ID"}
curl -X POST https://studio.mosi.cn/api/v1/voice/clone \
-H "Authorization: Bearer $MOSS_API_KEY" \
-d '{"file_id": "YOUR_FILE_ID", "name": "我的声音"}'
# → {"voice_id": "YOUR_VOICE_ID"}
# 2. 使用(等待 10 秒后)
python3 scripts/tts.py \
--text "你好" \
--voice_id "YOUR_VOICE_ID" \
--channel feishu
输出格式
| 渠道 | 格式 | 说明 |
|---|---|---|
| feishu | ogg (opus) | 飞书语音消息格式 |
| telegram | ogg (opus) | Telegram 语音消息格式 |
| ogg (opus) | WhatsApp 语音消息格式 | |
| discord | mp3 | Discord 文件格式 |
| signal | mp3 | Signal 文件格式 |
| slack | mp3 | Slack 文件格式 |
参数说明
| 参数 | 说明 | 必填 |
|---|---|---|
--text |
待合成文本 | ✅ |
--reference_audio |
参考音频(实时克隆) | 二选一 |
--voice_id |
预注册音色 ID | 二选一 |
--channel |
目标渠道 | ❌ |
--format |
输出格式 | ❌ |
--output |
输出路径 | ❌ |
--json |
JSON 输出 | ❌ |
音频要求
- 格式: ogg, mp3, wav, m4a
- 时长: 10-30 秒(推荐 20 秒以上)
- 音质: 清晰人声,无背景噪音
- 大小: < 10MB
常见问题
Q: 如何发送生成的语音?
本工具只生成音频文件。发送需要:
- 使用返回的文件路径
- 配合 OpenClaw message 工具或其他方式发送
Q: 飞书发送后是文件而不是语音?
确保音频格式正确:
file voice.ogg
# 应显示: Ogg data, Opus audio
Q: 克隆效果不好?
- 时长 20 秒以上
- 清晰人声,无噪音
- 正常语速
API 端点
| 用途 | 端点 |
|---|---|
| 文本转语音 | POST /v1/audio/tts |
| 上传文件 | POST /api/v1/files/upload |
| 克隆音色 | POST /api/v1/voice/clone |
| 查询音色 | GET /api/v1/voices |
详细文档
版本: 1.2.0 | 更新: 2026-03-10