Geek-skills-seedream-imagegen
Seedream 4.0 图像生成 Skill
此 Skill 提供使用 ByteDance Seedream 4.0 API 生成专业级 AI 图像的完整工作流程。
核心功能
- 高分辨率生成: 支持 2K (2048x2048) 和 4K (4096x4096) 分辨率
- 灵活的纵横比: 支持 1:1, 16:9, 9:16, 4:3, 3:2, 21:9 等多种比例
- 批量生成: 单次请求最多生成 15 张图像
- 参考图像指导: 支持最多 3 张参考图像来控制风格和构图
- 优秀的文本渲染: 可在图像中生成清晰的文字内容
- 顺序批量生成: 生成风格一致的系列图像
工作流程
1. 收集用户需求
在开始生成之前,务必询问用户以下信息:
必需信息
- 图像描述: 用户想要生成什么样的图像?
- 询问: "请描述您想要生成的图像内容"
- 提示: 鼓励用户提供详细描述,包括主题、风格、氛围等
推荐询问的信息
-
尺寸需求:
- 询问: "您需要什么尺寸的图像?(2K标准质量 或 4K高清质量)"
- 默认: 2K
- 说明: 2K 适合大多数用途,4K 适合打印或需要高清晰度的场景
-
纵横比:
- 询问: "您需要什么比例的图像?"
- 常见选项及用途:
- 1:1 (正方形) - 社交媒体、头像
- 16:9 (横向宽屏) - 网页横幅、视频缩略图
- 9:16 (竖向) - 手机壁纸、Stories
- 4:3 (标准横向) - 演示文稿、打印
- 默认: 1:1
-
数量:
- 询问: "需要生成几张图像?(1-15张)"
- 默认: 1
- 说明: 生成多张可以提供更多选择
2. 优化提示词
基于用户的描述,优化生成提示词。参考 references/prompt_engineering.md 获取详细指导。
提示词优化原则:
- 使用结构化描述: [主题] + [风格] + [细节] + [质量修饰词]
- 添加光照和氛围描述
- 包含具体的风格关键词
- 对于需要文字的图像,明确指定文字内容和字体风格
示例转换:
用户输入: "一只猫"
优化后的提示词:
"A fluffy orange tabby cat sitting on a wooden windowsill,
golden hour lighting streaming through lace curtains,
cozy home interior, warm color palette, soft focus background,
professional photography, highly detailed fur texture"
3. 选择合适的参数
根据用户需求和图像类型选择参数:
用途与参数对照表
| 用途 | size | aspect_ratio | max_images |
|---|---|---|---|
| 社交媒体图片 | 2K | 1:1 或 9:16 | 1-3 |
| 网页横幅 | 2K | 16:9 或 21:9 | 1 |
| 打印海报 | 4K | 4:3 或自定义 | 1-2 |
| 产品图片 | 2K | 3:2 或 4:3 | 3-5 |
| 概念设计 | 2K | 16:9 | 5-10 |
| 营销素材 | 2K-4K | 根据媒介 | 3-5 |
4. 执行图像生成
使用 scripts/generate_image.py 脚本生成图像:
命令行方式:
python scripts/generate_image.py \
--prompt "优化后的提示词" \
--size 2K \
--aspect-ratio 16:9 \
--max-images 1 \
--api-key YOUR_API_KEY \
--output-dir ./outputs
Python 代码方式:
from scripts.generate_image import SeedreamImageGenerator
generator = SeedreamImageGenerator(api_key="YOUR_API_KEY")
paths = generator.generate(
prompt="优化后的提示词",
size="2K",
aspect_ratio="16:9",
max_images=1,
output_dir="./outputs"
)
print(f"生成的图像: {paths}")
5. 处理结果
- 图像将保存在指定的输出目录(默认
./outputs) - 文件名格式:
seedream_YYYYMMDD_HHMMSS_提示词前缀.png - 如果生成多张图像,会自动添加编号后缀
6. 迭代优化
如果用户对结果不满意:
- 询问具体需要调整的地方
- 根据反馈优化提示词:
- 添加更多细节描述
- 调整风格关键词
- 修改光照或氛围描述
- 考虑调整技术参数:
- 提高分辨率(2K → 4K)
- 改变纵横比
- 生成更多变体供选择
高级功能
使用参考图像
当需要特定风格或品牌一致性时:
generator.generate(
prompt="提示词",
image_input=[
"https://example.com/reference1.jpg",
"https://example.com/reference2.jpg"
],
size="2K",
output_dir="./outputs"
)
参考图像用途:
- 指导艺术风格
- 保持品牌视觉一致性
- 提供构图参考
顺序批量生成
生成风格一致的系列图像:
generator.generate(
prompt="系列图像的统一描述",
max_images=5,
sequential=True, # 启用顺序生成
output_dir="./outputs"
)
适用场景:
- 产品系列图
- 故事板
- 品牌资产套件
- 社交媒体系列内容
自定义尺寸
对于特殊尺寸需求:
generator.generate(
prompt="提示词",
size="custom",
width=3000,
height=2000,
output_dir="./outputs"
)
API 配置
设置 API 密钥
方法 1: 环境变量 (推荐)
export SEGMIND_API_KEY="your_api_key_here"
方法 2: 直接传递
generator = SeedreamImageGenerator(api_key="your_api_key_here")
获取 API 密钥
- 访问 Segmind
- 注册账户
- 在账户设置中生成 API 密钥
参考文档
当需要更详细的信息时,参考以下文档:
-
API 详细说明:
references/api_reference.md- API 参数完整说明
- 请求示例
- 错误处理
- 性能指标
-
提示词工程:
references/prompt_engineering.md- 提示词结构指南
- 风格关键词库
- 用例示例
- 最佳实践
常见场景快速参考
场景 1: 社交媒体图片
generator.generate(
prompt="优化的社交媒体内容描述",
size="2K",
aspect_ratio="1:1",
max_images=3, # 生成多个供选择
output_dir="./outputs/social_media"
)
场景 2: 营销海报
generator.generate(
prompt="专业的营销海报描述,包含标题文字",
size="4K", # 高清晰度
aspect_ratio="4:3",
max_images=1,
output_dir="./outputs/marketing"
)
场景 3: 产品概念图
generator.generate(
prompt="详细的产品描述和风格要求",
size="2K",
aspect_ratio="3:2",
max_images=5, # 多角度探索
output_dir="./outputs/product_concepts"
)
场景 4: 品牌系列设计
generator.generate(
prompt="统一的品牌风格描述",
size="2K",
max_images=10,
sequential=True, # 保持一致性
image_input=["品牌logo_url", "色卡_url"],
output_dir="./outputs/brand_series"
)
故障排除
问题: API 返回 401 错误
- 检查 API 密钥是否正确设置
- 确认 API 密钥有效且有足够额度
问题: 生成的图像质量不理想
- 优化提示词,添加更多细节
- 尝试使用参考图像
- 提高分辨率到 4K
- 生成多张图像进行对比选择
问题: 生成时间过长
- 4K 图像需要更长时间(4-6秒)
- 批量生成会增加总时间
- 检查网络连接
问题: 图像中的文字不清晰
- 在提示词中明确指定字体风格
- 提高分辨率
- 添加 "high contrast", "bold typography" 等关键词
注意事项
- API 额度: 每次生成会消耗额度,注意监控剩余额度
- 生成时间: 2K 约 1.8 秒,4K 约 4-6 秒
- 批量限制: 单次请求最多 15 张图像
- 参考图限制: 最多 3 张参考图像
- 提示词长度: 建议 200-300 词以内
最佳实践
- 始终优化提示词: 不要直接使用用户的简短描述
- 询问清楚需求: 了解图像用途有助于选择正确参数
- 提供多个选项: 对于重要项目,生成 3-5 张供选择
- 使用参考图像: 需要特定风格时使用参考图像
- 迭代优化: 根据反馈持续改进提示词和参数
- 保存成功案例: 记录有效的提示词模板供后续使用
More from staruhub/claudeskills
geek-skills-a-share-analyst
A股专业分析师助手,提供每日股价分析、选股策略和投资建议。适用于:(1) 获取A股实时行情和历史数据,(2) 技术面分析(K线形态、MACD、KDJ、RSI、布林带等),(3) 基本面分析(财务指标、估值分析),(4) 板块热点追踪,(5) 选股策略筛选,(6) 量化因子分析,(7) 生成每日股市分析报告。当用户询问"帮我分析股票"、"今日选股"、"A股行情分析"、"技术分析"、"基本面分析"、"量化选股"等相关问题时触发。
72geek-skills-product-manager
资深产品经理助手,提供PRD文档创作与评审、产品策略咨询、留存增长分析、竞品研究、功能优先级排序等全方位产品管理支持。适用于创作或评审PRD/MRD/BRD/用户故事等产品文档;诊断产品问题(留存低、转化差、增长瓶颈)并给出可执行策略;进行竞品分析和市场研究;设计功能方案和用户体验优化。当用户提到"PRD"、"需求文档"、"产品规划"、"用户留存"、"功能设计"、"竞品分析"、"产品指标"、"增长策略"、"用户体验优化"、"功能优先级"等产品管理相关话题时,使用此skill。即使用户没有明确说"产品",但在讨论App功能设计、用户增长、商业模式、需求分析等话题时也应触发。
42request-analyzer
Proactively analyze user requests at the start of conversations to determine task type, assess prompt quality, and intelligently recommend which skills to activate. Should activate for ALL user requests to ensure optimal workflow. Evaluates clarity, specificity, and completeness to suggest prompt-optimizer when needed. Identifies UI design tasks for ui-analyzer and component requests for react-component-generator. Acts as intelligent skill coordinator.
40geek-skills-c-drive-cleaner
Windows C盘清理和磁盘空间管理工具。当用户需要清理C盘、释放磁盘空间、查找大文件、分析磁盘占用、删除临时文件、清理缓存、管理Windows系统垃圾文件时使用此skill。适用于以下场景:(1)C盘空间不足需要清理;(2)查找和删除大文件;(3)分析磁盘空间占用;(4)清理系统临时文件和缓存;(5)清理浏览器缓存;(6)清理回收站;(7)清理系统日志;(8)优化Windows磁盘空间。
37geek-skills-gaokao-expert
资深高考命题专家助手,提供专业的命题指导和评审服务。适用于创作高考试题、评审试题质量、分析试卷结构、了解命题趋势等场景。结合文档工具提取解压文件,使用网络搜索了解最新命题趋势,使用分析工具评估题目质量和试卷结构。涵盖"一核四层四翼"评价体系、2025年命题趋势、题型规范、评分标准、命题流程等多个维度,符合高考命题最佳实践。
36geek-skills-mineru-pdf-parser
PDF解析工具,将复杂PDF文档转换为LLM友好的Markdown/JSON格式。适用于:(1) 将PDF转换为Markdown或JSON格式,(2) 提取PDF中的文本、表格、公式、图像,(3) 处理学术论文、技术文档、商业报告的PDF解析,(4) 为RAG应用准备高质量文档数据,(5) 批量处理PDF文件。触发关键词包括:"PDF解析"、"PDF转Markdown"、"PDF转JSON"、"提取PDF表格"、"提取PDF公式"、"MinerU"、"文档解析"、"PDF extraction"、"convert PDF"、"parse PDF"等。
34