minimax-use

Installation
SKILL.md

minimax-use

使用 MiniMax 进行网络搜索、图像理解、图片生成和语音合成。

功能一:网络搜索

调用 web_search

使用脚本调用 MCP 服务:

python3 {curDir}/scripts/web_search.py "<搜索查询>"

示例:

# 搜索今日新闻
python3 {curDir}/scripts/web_search.py "今天的热点新闻"

API 参数说明

参数 说明 类型
query 搜索查询字符串 string (必填)

功能二:图像理解

准备图片

将图片放到可访问路径,例如:

  • ~/.openclaw/workspace/images/图片名.jpg
  • 或者使用 URL

调用 understand_image

使用脚本调用 MCP 服务:

python3 {curDir}/scripts/understand_image.py <图片路径或URL> "<对图片的提问>"

示例:

# 描述图片内容
python3 {curDir}/scripts/understand_image.py ~/image.jpg "详细描述这张图片的内容"

# 使用 URL
python3 {curDir}/scripts/understand_image.py "https://example.com/image.jpg" "这张图片展示了什么?"

API 参数说明

参数 说明 类型
image 图片路径或 URL string (必填)
prompt 对图片的提问 string (必填)

功能三:图片生成

注意:图片生成消耗较多 token,执行前必须先询问用户是否同意生成。

调用 image

使用脚本调用 MiniMax 图片生成 API:

python3 {curDir}/scripts/image.py "<描述>" [选项]

示例:

# 文生图(T2I)
python3 {curDir}/scripts/image.py "一只可爱的猫咪在阳光下玩耍"

# 指定宽高比和数量
python3 {curDir}/scripts/image.py "一只可爱的猫咪在阳光下玩耍" --aspect-ratio 16:9 --n 2

# 指定宽高
python3 {curDir}/scripts/image.py "一只可爱的猫咪在阳光下玩耍" --width 1024 --height 768 --output cat.png

# 图生图(I2I)
python3 {curDir}/scripts/image.py --subject /path/to/image.jpg "猫咪玩耍"

选项说明

选项 说明 默认值
--model 模型版本 image-01
--aspect-ratio 图片宽高比 1:1
--width 图片宽度(512-2048,8的倍数)
--height 图片高度(512-2048,8的倍数)
--n 生成图片数量(1-9) 1
--seed 随机种子
--output 保存图片到文件(png/jpg 格式)
--subject 主体参考图片(图生图 I2I)

可用模型

文生图(T2I):

  • image-01
  • image-01-live

图生图(I2I):

  • image-01
  • image-01-live

宽高比选项

  • 1:1 (1024x1024)
  • 16:9 (1280x720)
  • 4:3 (1152x864)
  • 3:2 (1248x832)
  • 2:3 (832x1248)
  • 3:4 (864x1152)
  • 9:16 (720x1280)
  • 21:9 (1344x576) (仅适用于 image-01)

功能四:语音合成 (Text-to-Speech)

调用 text_to_speech

使用脚本调用 MiniMax 语音合成 API:

python3 {curDir}/scripts/text_to_speech.py "<文本>" [选项]

示例:

# 基础语音合成
python3 {curDir}/scripts/text_to_speech.py "你好世界" --output audio.mp3

# 指定音色和情感
python3 {curDir}/scripts/text_to_speech.py "今天真开心" --voice female-shaonv --emotion happy --output happy.mp3

# 列出所有可用音色
python3 {curDir}/scripts/text_to_speech.py --list-voices

选项说明

选项 说明 默认值
--model 模型版本 speech-2.8-hd
--output 保存音频到文件(mp3 格式) 无 (直接输出包含十六进制数据的 JSON)
--voice 音色 ID female-shaonv
--emotion 情感 (happy, sad, angry, fearful, disgusted, surprised, calm, fluent, whisper)
--list-voices 列出所有可用的音色列表
Weekly Installs
1
GitHub Stars
1
First Seen
Apr 7, 2026