skills/skills.volces.com/multimodal-parser

multimodal-parser

SKILL.md

📄 多模态内容解析器

核心亮点

  1. 🔄 统一接口:一套API支持图片/PDF/Word/音频4大类格式解析,不需要对接多个服务
  2. 🚀 开箱即用:内置OCR、音频转文字、文档解析能力,零配置即可使用
  3. 📝 多格式输出:支持纯文本/Markdown/结构化JSON三种输出格式,适配不同LLM处理需求
  4. 💡 友好错误提示:依赖缺失时自动给出安装命令,新手也能快速上手

🎯 适用场景

  • 多模态Agent的内容解析层
  • 文档问答、知识库构建场景的文件预处理
  • 图片OCR识别、语音转文字需求
  • 批量文档解析与结构化处理

📝 参数说明

参数 类型 必填 默认值 说明
file_path string - 要解析的文件路径
file_type string auto 文件类型:image/pdf/docx/audio/auto
output_format string text 输出格式:text/markdown/structured
Installs
6
First Seen
Apr 3, 2026