image-analysis
图片分析与识别
支持智谱 GLM-4V 和千问 Qwen-VL 两种视觉模型。
当用户发送图片或要求分析图片时,必须使用此技能,不要使用 PIL、pytesseract 等其他方法。
配置
编辑 skills/image-analysis/scripts/config.json:
{
"default_model": "zhipu",
"zhipu": {
"api_key": "your-zhipu-api-key",
"model": "glm-4.6v-flash"
},
"qwen": {
"api_key": "your-qwen-api-key",
"model": "qwen3-vl-plus"
}
}
API Key 获取:
命令行调用
# 分析本地图片(最常用)
python3 skills/image-analysis/scripts/vision.py analyze --image 图片路径 --prompt "描述图片内容"
# 分析网络图片
python3 skills/image-analysis/scripts/vision.py analyze --image https://example.com/image.jpg --prompt "描述图片"
# 多图对比
python3 skills/image-analysis/scripts/vision.py analyze --image img1.jpg --image img2.jpg --prompt "对比差异"
# 指定模型
python3 skills/image-analysis/scripts/vision.py analyze --image image.jpg --prompt "描述图片" --model qwen
# 开启思考模式(仅智谱,提升准确度)
python3 skills/image-analysis/scripts/vision.py analyze --image image.jpg --prompt "详细分析" --thinking
# 视频分析
python3 skills/image-analysis/scripts/vision.py analyze --video video.mp4 --prompt "总结视频内容"
# JSON 输出
python3 skills/image-analysis/scripts/vision.py analyze --image image.jpg --prompt "描述图片" --json
AI 调用场景
用户发送图片后,系统下载到本地(如 data/temp/images/xxx.jpg):
# 图片描述
python3 skills/image-analysis/scripts/vision.py analyze --image data/temp/images/xxx.jpg --prompt "描述这张图片的内容"
# OCR 识别
python3 skills/image-analysis/scripts/vision.py analyze --image data/temp/images/xxx.jpg --prompt "提取图片中的所有文字信息"
# 物体定位(开启思考模式)
python3 skills/image-analysis/scripts/vision.py analyze --image data/temp/images/xxx.jpg --prompt "找出物体位置,返回坐标" --thinking
模型选择
| 场景 | 推荐 |
|---|---|
| 简单描述 | 任意 |
| 复杂推理、物体定位 | 智谱 + --thinking |
| 高精度识别、文档解析 | 千问 |
| 成本敏感 | 智谱(免费) |
注意事项
- 本地图片自动转 Base64,支持 jpg/png/gif/webp/bmp
- 智谱图片限制 5MB,像素不超过 6000x6000
- 千问不支持同时处理图片、视频和文件
- 思考模式会增加响应时间但提升准确度
More from countbot-ai/countbot
baidu-search
百度 AI 搜索。支持网页搜索、百度百科、秒懂百科、AI 智能生成四种模式。自动包含当前日期上下文。当用户要求搜索信息、查询百科、获取最新资讯、搜索新闻、查找资料时使用。
1.5Kweb-design
网页设计与部署。生成精美的单页 HTML 网页(报告、落地页、数据可视化等),支持一键部署到 Cloudflare Pages。使用 Tailwind CSS + Chart.js + Font Awesome 技术栈。当用户要求制作网页、生成报告页面、创建落地页、数据可视化展示、部署网页到线上时使用。
31cron-manager
定时任务管理。创建、查看、修改、删除定时任务,管理任务会话数据。当用户需要设置提醒、定时执行任务、管理调度计划时使用。
26news
新闻与资讯查询。获取中文新闻和全球 AI 技术资讯,支持按分类查询(时政、财经、科技、社会、国际、体育、娱乐、AI 技术、AI 社区)。当用户询问最新新闻、AI 动态、行业资讯时使用。
24agent-browser
Browser automation CLI for AI agents. Use when the user needs to interact with websites, including navigating pages, filling forms, clicking buttons, taking screenshots, extracting data, testing web apps, or automating any browser task. Triggers include requests to "open a website", "fill out a form", "click a button", "take a screenshot", "scrape data from a page", "test this web app", "login to a site", "automate browser actions", or any task requiring programmatic web interaction.
22map
高德地图路线规划与 POI 搜索。支持驾车、步行、骑行、公交路线规划,以及景点、餐厅搜索。当用户询问路线、行程规划、景点推荐、餐厅推荐时使用。
20