skills/skills.volces.com/moss-tts-voice

moss-tts-voice

SKILL.md

MOSS-TTS 语音合成

⚠️ 注意:本工具负责生成音频文件,发送到各渠道需要配合其他工具(如 OpenClaw message 工具)

快速开始(3 步)

1. 获取 API Key

访问 https://studio.mosi.cn → 注册/登录 → 控制台 → API 密钥 → 创建

export MOSS_API_KEY="sk-你的密钥"

2. 安装依赖

# 系统依赖
brew install python3 ffmpeg

# Python 依赖
pip3 install requests

3. 生成语音

python3 scripts/tts.py \
  --text "你好,我是MOSS" \
  --channel feishu \
  --json

输出:

{
  "success": true,
  "file": "/tmp/openclaw/moss-tts/voice-xxx.ogg",
  "format": "ogg"
}

⚠️ 隐私与安全

API Key 安全

  • 不要提交到 Git:将 MOSS_API_KEY 添加到 .gitignore
  • 使用环境变量:不要在代码中硬编码密钥
  • 定期轮换:建议定期更换 API Key

语音数据上传

  • 克隆音色:上传的音频会存储在 MOSS Studio 服务器
  • 实时克隆:每次请求都会上传音频数据到 MOSS API
  • 数据保留:参考 MOSS Studio 隐私政策

建议

  • 使用公开/非敏感音频进行克隆
  • 避免上传包含敏感信息的录音
  • 定期清理 MOSS Studio 中不需要的音色

功能说明

本工具提供以下功能:

  1. 文本转语音 - 将文本转换为自然语音
  2. 实时克隆 - 从音频即时克隆声音
  3. 预注册音色 - 上传并保存音色供后续使用
  4. 格式转换 - 自动转换为适合各渠道的格式

不包含

  • 直接发送到 IM 渠道(需要配合其他工具)
  • 音色管理(删除、修改等)

使用模式

模式一:实时克隆

python3 scripts/tts.py \
  --text "要说的内容" \
  --reference_audio "参考音频.ogg" \
  --channel feishu

模式二:预注册音色(推荐)

# 1. 上传并克隆
curl -X POST https://studio.mosi.cn/api/v1/files/upload \
  -H "Authorization: Bearer $MOSS_API_KEY" \
  -F "file=@voice.ogg"
# → {"file_id": "YOUR_FILE_ID"}

curl -X POST https://studio.mosi.cn/api/v1/voice/clone \
  -H "Authorization: Bearer $MOSS_API_KEY" \
  -d '{"file_id": "YOUR_FILE_ID", "name": "我的声音"}'
# → {"voice_id": "YOUR_VOICE_ID"}

# 2. 使用(等待 10 秒后)
python3 scripts/tts.py \
  --text "你好" \
  --voice_id "YOUR_VOICE_ID" \
  --channel feishu

输出格式

渠道 格式 说明
feishu ogg (opus) 飞书语音消息格式
telegram ogg (opus) Telegram 语音消息格式
whatsapp ogg (opus) WhatsApp 语音消息格式
discord mp3 Discord 文件格式
signal mp3 Signal 文件格式
slack mp3 Slack 文件格式

参数说明

参数 说明 必填
--text 待合成文本
--reference_audio 参考音频(实时克隆) 二选一
--voice_id 预注册音色 ID 二选一
--channel 目标渠道
--format 输出格式
--output 输出路径
--json JSON 输出

音频要求

  • 格式: ogg, mp3, wav, m4a
  • 时长: 10-30 秒(推荐 20 秒以上)
  • 音质: 清晰人声,无背景噪音
  • 大小: < 10MB

常见问题

Q: 如何发送生成的语音?

本工具只生成音频文件。发送需要:

  1. 使用返回的文件路径
  2. 配合 OpenClaw message 工具或其他方式发送

Q: 飞书发送后是文件而不是语音?

确保音频格式正确:

file voice.ogg
# 应显示: Ogg data, Opus audio

Q: 克隆效果不好?

  • 时长 20 秒以上
  • 清晰人声,无噪音
  • 正常语速

API 端点

用途 端点
文本转语音 POST /v1/audio/tts
上传文件 POST /api/v1/files/upload
克隆音色 POST /api/v1/voice/clone
查询音色 GET /api/v1/voices

详细文档


版本: 1.2.0 | 更新: 2026-03-10

Weekly Installs
3
First Seen
4 days ago
Installed on
openclaw3