byted-podcast-tts

Installation

SKILL.md

Podcast TTS Skill

基于火山引擎豆包语音合成 WebSocket 协议（PodcastTTS，/api/v3/sami/podcasttts）将某个话题合成为播客音频并保存为本地文件。支持：

输入一句话题文本或者一个网页地址（也可以是个文件下载地址，支持 pdf/word/txt 格式）生成播客
输出播客音频下载链接
输出播客分段文本（JSON）

适用场景

用户提到 生成播客 或 播客合成 等相关关键词。
用户需要为某个话题生成播客形式的音频文件。
用户需要某个网页或文件内容生成播客形式的音频文件。
用户需要为用户上传的文件内容或者一个长上下文生成播客形式的音频文件。

使用步骤

分析用户需要合成播客的内容，准备要合成的输入：prompt_text（原始话题，一般不超过 20 个字）或 input_url（网页地址或文件下载地址）或者 text（用户上传文件读取出来的内容或者是一个比较长的文本，一般超过 200 个字）。
运行脚本前先 cd 到本技能目录：skills/byted-podcast-gen。
配置鉴权（环境变量或命令行参数）。
执行脚本：python scripts/podcast.py [参数]。参考下面示例部分。
根据脚本输出的 JSON 里的 audio_path / texts / audio_url 使用生成结果，如果有 audio_url 是一个带过期时间的 URL, 可以返回给用户, audio_path 是本地文件路径, 可以给用户提供下载。

环境变量与鉴权

该脚本通过 WebSocket Header 进行鉴权。你可以用命令行参数传入，也可以配置环境变量（推荐，避免在命令行历史里泄露凭证）：

必填：MODEL_SPEECH_API_KEY

脚本参数

参数	必填	说明
`--text`	否	输入原始长文本（`action=0` 时使用）
`--input_url`	否	输入文本的 URL（`action=0` 时使用，二选一）
`--prompt_text`	否	提示词文本（`action=4` 时必填）
`--action`	否	播客类型：`0`(原始文本/URL)、`4`(prompt)；默认 `4`
`--speaker_info`	否	说话人配置 JSON（默认 `{"random_order":false}`）
`--encoding`	否	音频格式：`mp3`（默认）、`wav`、`ogg_opus`
`--output`	否	最终音频输出文件路径（默认自动生成到 `output/`）

返回值说明

脚本输出 JSON，包含：

status: "success" 或 "error"
task_id: 任务标识（用于定位一次生成任务）
audio_path: 最终音频本地路径
texts: 分段文本 JSON 字符串，每个发音人对应的文本列表。
audio_url: 服务端返回的音频下载地址
error: 失败时的错误信息

错误处理

若报错提示缺少 MODEL_SPEECH_API_KEY：检查环境变量或命令行参数是否已配置，不存在的时候提示用户输入, 然后设置到环境变量。
若收到服务端错误（MsgType.Error）：根据错误信息检查账号权限、资源 ID、输入内容及是否已开通服务。
若收到服务端错误包含关键字 quota 说明当前账号已超量，需升级火山引擎豆包语音的播客服务。
python 执行缺少相关 package 时，需要先安装依赖：pip install -r requirements.txt

参考文档

豆包播客-产品简介

示例

# 基于话题生成播客音频
ptompt_text="豆包语音合成服务"
python scripts/podcast.py --prompt_text $ptompt_text --action 4
# 基于网页内容生成播客音频
url="https://www.volcengine.com/docs/6561/1668014?lang=zh"
python scripts/podcast.py --input_url $url --action 0
# 基于长文本内容生成播客音频
text="欢迎收听本期节目，我们聊聊人工智能的关键拐点……"
python scripts/podcast.py --text $text --action 0

Related skills

More from bytedance/agentkit-samples

Installs

Repository

bytedance/agent…-samples

GitHub Stars

328

First Seen

Mar 18, 2026

byted-podcast-tts

Podcast TTS Skill

适用场景

使用步骤

环境变量与鉴权

脚本参数

返回值说明

错误处理

参考文档

示例

More from bytedance/agentkit-samples

byted-web-search

byted-las-video-edit

byted-data-search

byted-las-vlm-video

byted-text-to-speech

byted-marketing-agent-inspiration-insight