1. 转录视频（Whisper）
    ↓
2. 词典纠错 + 分句
    ↓
3. 输出字幕稿（纯文本，一句一行）
    ↓
【用户审核修改】
    ↓
4. 用户给回修改后的文本
    ↓
5. 我匹配时间戳 → 生成 SRT
    ↓
6. 烧录字幕（FFmpeg）

转录

使用 OpenAI Whisper 模型进行语音转文字：

whisper video.mp4 --model medium --language zh --output_format json

模型	用途
`medium`	默认，平衡速度与准确率
`large-v3`	高精度，较慢

输出 JSON 包含逐词时间戳，用于后续 SRT 生成。

字幕规范

读取 词典.txt，每行一个正确写法：

skills
Claude
iPhone

我自动识别变体：claude → Claude

我给用户的（纯文本，≤15字/行）：

今天给大家分享一个技巧
很多人可能不知道
其实这个功能
藏在设置里面
你只要点击这里
就能看到了

用户修改后给回我，我再匹配时间戳生成 SRT。

默认：24号白字、黑色描边、底部居中

可选样式：

样式	说明
默认	白字黑边
黄字	黄字黑边（醒目）

用户可说：

01-xxx_字幕稿.txt   # 纯文本，用户编辑
01-xxx.srt          # 字幕文件
01-xxx-字幕.mp4     # 带字幕视频