byted-drama

SKILL.md

Drama - AI 视频创作工具

从剧本到成片的全流程自动化,支持漫剧、短剧、电影等多种创作类型。

🎬 项目类型

类型 说明 适用场景
漫剧 AI生成的动漫风格视频 抖音/小红书短视频、故事号
短剧 真人演绎的剧情短片 短视频平台、广告片
电影 完整的电影作品 B站/YouTube长视频

🎨 风格选项

风格 适用类型 视觉特点
动漫 漫剧 通用动漫风格
日漫 漫剧 日式动画,大眼萌系/热血
美漫 漫剧 美式漫画,线条粗犷
国漫 漫剧 中国风,水墨/古风/现代国潮
电影 短剧/电影 电影级画面,写实风格
纪录片 短剧/电影 真实感,自然光效
真人 短剧/电影 真人实拍风格

工作流程

新建项目 → 剧本创作 → 角色场景道具生成 → 分镜生成 → 视频生成 → 合成成片

资源生成顺序(强制)

  1. 先生成角色图
  2. 再生成场景图
  3. 再生成道具图
  4. 最后才能生成分镜图片

分镜图生成前,必须先完成角色、场景、道具三类基础素材,用于统一视觉设定和后续参考图引用。

核心能力

1. 项目管理

  • 新建项目并创建项目文件夹
  • 项目配置持久化存储
  • 支持多项目并行
  • 项目信息:名称、类型、风格、创建时间

2. 剧本创作

  • 支持多幕结构(钩子、发展、高潮、结尾)
  • 角色设定与视觉描述
  • 场景色调规划
  • 分镜脚本(画面描述、对白、时长)

3. 角色 / 场景 / 道具图片生成

  • 分镜生成前的基础素材准备步骤
  • 使用统一风格生成角色设定图、场景设定图、道具设定图
  • 角色图用于固定人物造型、服装、配色、视角
  • 场景图用于固定空间氛围、建筑结构、色调、时代质感
  • 道具图用于固定关键物件外观,避免分镜阶段形象漂移

角色图规范(强制)

  • 比例固定:21:9
  • 背景固定:纯白色背景
  • 单张图必须同时包含:
    • 面部特写
    • 正面全身图
    • 侧面全身图
    • 背面全身图
  • 用途:作为后续分镜生成的人物参考图,保证角色一致性

场景图规范(强制)

  • 比例固定:21:9
  • 用于定义场景整体构图、空间关系、光影氛围

道具图规范(强制)

  • 比例固定:21:9
  • 用于定义关键道具造型、材质、细节与时代风格

4. 分镜图片生成

  • 使用 Seedream API 生成高质量图片
  • 支持角色一致性
  • 生成前必须先准备好角色、场景、道具参考图
  • 根据项目类型自动选择分辨率
  • 支持多种画幅比例

5. 视频片段生成

  • 使用 Seedance API 从图片生成视频
  • 支持中文运镜描述
  • 可选 AI 音效生成(generate_audio=true

6. 视频合成

  • FFmpeg 合并视频片段
  • 可选字幕嵌入
  • 输出格式:MP4

项目结构

projects/
├── 项目名称/
│   ├── project.json        # 项目配置
│   ├── script.md           # 剧本文件
│   ├── narration.md        # 旁白台词
│   ├── video_prompts.md    # 视频提示词
│   ├── subtitles.vtt       # 字幕文件
│   ├── characters/         # 角色图(21:9,白色背景,含面部+正/侧/背全身)
│   │   ├── 刘备.png
│   │   ├── 诸葛亮.png
│   │   └── ...
│   ├── scenes/             # 场景图(21:9)
│   │   ├── 隆中草庐.png
│   │   └── ...
│   ├── props/              # 道具图(21:9)
│   │   ├── 羽扇.png
│   │   └── ...
│   ├── frames/             # 分镜图片
│   │   ├── frame_01.png
│   │   └── ...
│   ├── videos/             # 视频片段
│   ├── final/              # 最终成片
│   │   └── final_video.mp4
│   └── assets/             # 素材资源
│       ├── audio/
│       ├── images/
│       └── fonts/

项目配置 (project.json)

{
  "name": "赛博朋克之梦",
  "type": "drama",
  "style": "anime",
  "created_at": "2026-03-15T09:00:00+08:00",
  "updated_at": "2026-03-15T10:30:00+08:00",
  "resolution": "1440x2560",
  "ratio": "9:16",
  "duration": 60,
  "status": "in_progress",
  "stats": {
    "frames_total": 29,
    "frames_generated": 15,
    "videos_generated": 10
  }
}

默认配置

漫剧 (drama)

  • 分辨率: 1440x2560 (9:16 竖屏)
  • 平台: 抖音、小红书
  • 时长: 30秒-3分钟

短剧 (short_film)

  • 分辨率: 1920x1080 (16:9 横屏)
  • 平台: 抖音、快手、B站
  • 时长: 1-10分钟

电影 (movie)

  • 分辨率: 1920x1080 或 3840x2160
  • 平台: B站、YouTube
  • 时长: 10分钟以上

新建项目流程

触发方式

用户: 新建一个项目
用户: 创建一个漫剧项目
用户: 我要做一个电影

交互流程

助手: 🎬 创建新项目

请输入项目名称:____

选择项目类型:
  1. 漫剧 (默认) - AI动漫风格短视频
  2. 短剧 - 真人剧情短片
  3. 电影 - 完整电影作品

选择风格:
  [漫剧] 动漫 | 日漫 | 美漫 | 国漫
  [短剧/电影] 电影 | 纪录片 | 真人

用户: 项目名:赛博朋克之梦,类型:漫剧,风格:动漫

助手: ✅ 项目创建成功!

📁 项目目录: projects/赛博朋克之梦/
📋 项目配置:
   - 类型: 漫剧
   - 风格: 动漫
   - 分辨率: 1440x2560
   - 画幅: 9:16

接下来可以:
1. 创作剧本 - "帮我写一个1分钟的赛博朋克故事"
2. 上传素材 - "上传参考图片或背景音乐"
3. 设置角色 - "设定主角的外观和性格"

API 配置

Seedream(图片生成)

  • Endpoint: https://ark.cn-beijing.volces.com/api/v3/images/generations
  • Model: ep-20260225094435-gzb5q(或用户配置的 endpoint)

Seedance(视频生成)

  • Endpoint: https://ark.cn-beijing.volces.com/api/v3/contents/generations/tasks
  • Model: doubao-seedance-1-5-pro-251215

重要规则

⚠️ 项目管理

  • 所有创作必须在项目内进行
  • 新建项目时必须提供项目名称
  • 类型默认为"漫剧",风格默认为"动漫"
  • 项目文件夹路径:~/workspace/agent/workspace/projects/<项目名称>/
  • 若环境变量中未配置 API_KEY,在进行生图或生视频前,必须先提示用户提供用于生成图片/视频的 API_KEY,再继续执行

⚠️ 成本控制

  • 视频生成成本高,批量操作前必须获得用户确认
  • 估算成本后再执行
  • 提供预览选项(发送单张图片/视频供确认)

⚠️ TTS 限制

  • 当前环境无 TTS(文字转语音)能力
  • 旁白配音需用户自行处理或提供 TTS API
  • Seedance 的 generate_audio 仅生成环境音效,非人声旁白

⚠️ 用户确认流程

  • 分镜图片生成后:必须把图片发给用户确认
  • 并且后面每一张分镜图都必须同时发送对应提示词信息,包括:
    • 分镜画面描述
    • 使用了哪些参考图
    • 按规则写成的正式生成提示词
  • 视频片段生成后:必须发送给用户确认
  • 合成最终视频后:必须发送给用户确认
  • 每个关键步骤都需要用户预览和确认

⚠️ 飞书文档输出规则

  • 创建飞书文档后:必须把文档链接发送给用户确认,不能只回答"已创建"
  • 确保用户能直接访问文档链接

⚠️ 分镜图片生成前置条件

  • 禁止跳过基础素材阶段:生成分镜图片前,必须先生成人物角色图、场景图、道具图
  • 若角色 / 场景 / 道具尚未完成,不得直接进入分镜图片生成
  • 分镜阶段默认优先复用前面已经确认过的设定图,保持视觉统一

⚠️ 分镜图片提示词引用参考图规则

当分镜中包含了参考的场景、角色、道具时:

  1. 提示词命名:只能用"图1"、"图2"、"图3"等(不能用图A、图B)
  2. 提示词末尾注明每个图是什么:如"// 图1是深渊之主,图2是城市废墟"
  3. API调用顺序:参考图片的传入顺序必须与提示词中的命名顺序一致

示例:

分镜提示词:
"深渊之主站在城市废墟中(参考图1的角色设定,图2的场景氛围),触手挥舞..."
// 图1是深渊之主,图2是城市废墟

API调用:
reference_images: [深渊之主.png, 城市废墟.png]  // 顺序必须对应,图1是深渊之主,图2是城市废墟

关键

  1. 提示词中只能用"图1"、"图2"命名(禁止用图A、图B等)
  2. 提示词末尾用注释说明每个图是什么
  3. API调用时参考图顺序必须与命名顺序一致

创建新项目

用户: 新建项目,名字叫"仙剑奇缘",类型短剧,风格真人

助手: ✅ 项目"仙剑奇缘"创建成功!
📁 项目目录: projects/仙剑奇缘/
📋 配置: 短剧 | 真人风格 | 1920x1080 (16:9)

切换项目

用户: 打开"赛博朋克之梦"项目

助手: 📂 已切换到项目"赛博朋克之梦"
   - 状态: 制作中
   - 进度: 15/29 分镜已完成

查看项目列表

用户: 我有哪些项目?

助手: 📋 项目列表:

1. 赛博朋克之梦
   类型: 漫剧 | 风格: 动漫 | 状态: 制作中
   进度: 15/29 分镜

2. 仙剑奇缘
   类型: 短剧 | 风格: 真人 | 状态: 刚创建
   进度: 0/0 分镜

批量生成确认

用户: 生成所有分镜的视频

助手: 
⚠️ 视频生成成本较高
- 项目: 赛博朋克之梦
- 分镜数量: 29个
- 预计耗时: ~30分钟
- 预计费用: [估算]

确认生成吗?

常见问题

问题 解决方案
视频无音频 使用 generate_audio=true 重新生成
需要旁白配音 当前无 TTS,需用户提供音频或 API
文件太大无法发送 使用 FFmpeg 压缩:-crf 28 -preset fast
角色不一致 在提示词中详细描述角色特征
项目找不到 使用"查看项目列表"确认项目名称

脚本工具

new_project.sh - 创建新项目

./scripts/new_project.sh \
  --name "项目名称" \
  --type drama \
  --style anime

generate_image.sh - 图片生成

./scripts/generate_image.sh \
  --prompt "赛博朋克风格的霓虹街道" \
  --output frames/frame_01.png \
  --size 1440x2560 \
  --project "赛博朋克之梦"

generate_video.sh - 视频生成

从图片生成视频片段,支持运镜描述。

merge_videos.sh - 视频合并

使用 FFmpeg 合并多个视频片段。

相关 Skill

  • miaoda-text-gen-image - 文字生成图片
  • miaoda-speech-to-text - 语音转文字(反向操作)
  • xiaohongshu-publish - 小红书发布(可选后续)
Weekly Installs
196
First Seen
Mar 28, 2026
Installed on
openclaw187
kimi-cli156
gemini-cli156
amp156
cline156
github-copilot156