minimax-use
Installation
SKILL.md
minimax-use
使用 MiniMax 进行网络搜索、图像理解、图片生成和语音合成。
功能一:网络搜索
调用 web_search
使用脚本调用 MCP 服务:
python3 {curDir}/scripts/web_search.py "<搜索查询>"
示例:
# 搜索今日新闻
python3 {curDir}/scripts/web_search.py "今天的热点新闻"
API 参数说明
| 参数 | 说明 | 类型 |
|---|---|---|
| query | 搜索查询字符串 | string (必填) |
功能二:图像理解
准备图片
将图片放到可访问路径,例如:
~/.openclaw/workspace/images/图片名.jpg- 或者使用 URL
调用 understand_image
使用脚本调用 MCP 服务:
python3 {curDir}/scripts/understand_image.py <图片路径或URL> "<对图片的提问>"
示例:
# 描述图片内容
python3 {curDir}/scripts/understand_image.py ~/image.jpg "详细描述这张图片的内容"
# 使用 URL
python3 {curDir}/scripts/understand_image.py "https://example.com/image.jpg" "这张图片展示了什么?"
API 参数说明
| 参数 | 说明 | 类型 |
|---|---|---|
| image | 图片路径或 URL | string (必填) |
| prompt | 对图片的提问 | string (必填) |
功能三:图片生成
注意:图片生成消耗较多 token,执行前必须先询问用户是否同意生成。
调用 image
使用脚本调用 MiniMax 图片生成 API:
python3 {curDir}/scripts/image.py "<描述>" [选项]
示例:
# 文生图(T2I)
python3 {curDir}/scripts/image.py "一只可爱的猫咪在阳光下玩耍"
# 指定宽高比和数量
python3 {curDir}/scripts/image.py "一只可爱的猫咪在阳光下玩耍" --aspect-ratio 16:9 --n 2
# 指定宽高
python3 {curDir}/scripts/image.py "一只可爱的猫咪在阳光下玩耍" --width 1024 --height 768 --output cat.png
# 图生图(I2I)
python3 {curDir}/scripts/image.py --subject /path/to/image.jpg "猫咪玩耍"
选项说明
| 选项 | 说明 | 默认值 |
|---|---|---|
| --model | 模型版本 | image-01 |
| --aspect-ratio | 图片宽高比 | 1:1 |
| --width | 图片宽度(512-2048,8的倍数) | 无 |
| --height | 图片高度(512-2048,8的倍数) | 无 |
| --n | 生成图片数量(1-9) | 1 |
| --seed | 随机种子 | 无 |
| --output | 保存图片到文件(png/jpg 格式) | 无 |
| --subject | 主体参考图片(图生图 I2I) | 无 |
可用模型
文生图(T2I):
- image-01
- image-01-live
图生图(I2I):
- image-01
- image-01-live
宽高比选项
- 1:1 (1024x1024)
- 16:9 (1280x720)
- 4:3 (1152x864)
- 3:2 (1248x832)
- 2:3 (832x1248)
- 3:4 (864x1152)
- 9:16 (720x1280)
- 21:9 (1344x576) (仅适用于 image-01)
功能四:语音合成 (Text-to-Speech)
调用 text_to_speech
使用脚本调用 MiniMax 语音合成 API:
python3 {curDir}/scripts/text_to_speech.py "<文本>" [选项]
示例:
# 基础语音合成
python3 {curDir}/scripts/text_to_speech.py "你好世界" --output audio.mp3
# 指定音色和情感
python3 {curDir}/scripts/text_to_speech.py "今天真开心" --voice female-shaonv --emotion happy --output happy.mp3
# 列出所有可用音色
python3 {curDir}/scripts/text_to_speech.py --list-voices
选项说明
| 选项 | 说明 | 默认值 |
|---|---|---|
| --model | 模型版本 | speech-2.8-hd |
| --output | 保存音频到文件(mp3 格式) | 无 (直接输出包含十六进制数据的 JSON) |
| --voice | 音色 ID | female-shaonv |
| --emotion | 情感 (happy, sad, angry, fearful, disgusted, surprised, calm, fluent, whisper) | 无 |
| --list-voices | 列出所有可用的音色列表 | 无 |