image-evaluation
SKILL.md
Image Evaluation Skill | 图像评估技能
Helps choose and apply AI image / T2I evaluation benchmarks and metrics. Full benchmark details (metrics, datasets, links) are in reference.md.
协助选择和应用 AI 图像 / 文生图评测 的基准与指标。各基准的指标、数据集与资料链接见 reference.md。
When to use | 何时使用
- 需要评估文生图/生成图像质量、图文对齐、人体真实感、组合能力等
- 选 benchmark(如 GenAI-Bench、PartiPrompt、ImageEval、T2I-CompBench++)
- 选指标(VQAScore、FID、CLIPScore、人评、热力图/可解释反馈)
- 查数据集量级与评测方式
Quick reference | 速查
| 需求 | 推荐 |
|---|---|
| 通用图文对齐 | GenAI-Bench + VQAScore |
| 组合/推理 | T2I-CompBench++、HRSBench、DALL-EVAL |
| 中文 + 细粒度 | ImageEval |
| 人体真实感/失真 | BodyMetric、Human Distortion Benchmark |
| 可解释与改进 | RAHF(热力图 + 分数) |
| 指令编辑 | Reason-Edit |
Single-image evaluation (unified report)
Given one image and one prompt, run multi-metric evaluation and get one HTML report with:
| 维度 | 指标 | 说明 |
|---|---|---|
| 图文相关性 | CLIPScore | 0–1 |
| 图文相关性 | VQAScore | GenAI-Bench 风格,BLIP-2,可选 --no-vqa |
| 图文相关性 | ImageReward | 人类偏好奖励模型,与人工评判更一致,可选 --no-imagereward |
| 生成质量 | 锐度 Laplacian | 无参考清晰度 0–1 |
| 美学/吸引力 | CLIP 美学代理 | 0–1 |
| 人体真实感/失真/RAHF | — | 需专用模型,见 reference.md |
cd image-evaluation
python3 -m venv .venv && .venv/bin/pip install -r requirements-eval.txt
.venv/bin/python evaluate_image.py --image /path/to/image.png "生图 prompt" --output-dir reports
# 可选:--no-vqa 跳过 VQAScore;--no-imagereward 跳过 ImageReward
报告输出到 reports/report_YYYY-MM-DD_HH-MM-SS.html(每次唯一)。布局:顶部粘性摘要 + 左图右表,减少纵向滚动。
References
- Full benchmarks & metrics → reference.md(总览表 + 各基准说明 + 使用建议)
Weekly Installs
2
Repository
ppdbxdawj/ai-skillsGitHub Stars
2
First Seen
Mar 2, 2026
Security Audits
Installed on
opencode2
codebuddy2
qwen-code2
claude-code2
github-copilot2
codex2