skills/ppdbxdawj/ai-skills/image-evaluation

image-evaluation

SKILL.md

Image Evaluation Skill | 图像评估技能

Helps choose and apply AI image / T2I evaluation benchmarks and metrics. Full benchmark details (metrics, datasets, links) are in reference.md.

协助选择和应用 AI 图像 / 文生图评测 的基准与指标。各基准的指标、数据集与资料链接见 reference.md

When to use | 何时使用

  • 需要评估文生图/生成图像质量、图文对齐、人体真实感、组合能力等
  • 选 benchmark(如 GenAI-Bench、PartiPrompt、ImageEval、T2I-CompBench++)
  • 选指标(VQAScore、FID、CLIPScore、人评、热力图/可解释反馈)
  • 查数据集量级与评测方式

Quick reference | 速查

需求 推荐
通用图文对齐 GenAI-Bench + VQAScore
组合/推理 T2I-CompBench++、HRSBench、DALL-EVAL
中文 + 细粒度 ImageEval
人体真实感/失真 BodyMetric、Human Distortion Benchmark
可解释与改进 RAHF(热力图 + 分数)
指令编辑 Reason-Edit

Single-image evaluation (unified report)

Given one image and one prompt, run multi-metric evaluation and get one HTML report with:

维度 指标 说明
图文相关性 CLIPScore 0–1
图文相关性 VQAScore GenAI-Bench 风格,BLIP-2,可选 --no-vqa
图文相关性 ImageReward 人类偏好奖励模型,与人工评判更一致,可选 --no-imagereward
生成质量 锐度 Laplacian 无参考清晰度 0–1
美学/吸引力 CLIP 美学代理 0–1
人体真实感/失真/RAHF 需专用模型,见 reference.md
cd image-evaluation
python3 -m venv .venv && .venv/bin/pip install -r requirements-eval.txt
.venv/bin/python evaluate_image.py --image /path/to/image.png "生图 prompt" --output-dir reports
# 可选:--no-vqa 跳过 VQAScore;--no-imagereward 跳过 ImageReward

报告输出到 reports/report_YYYY-MM-DD_HH-MM-SS.html(每次唯一)。布局:顶部粘性摘要 + 左图右表,减少纵向滚动。

References

  • Full benchmarks & metricsreference.md(总览表 + 各基准说明 + 使用建议)
Weekly Installs
2
GitHub Stars
2
First Seen
Mar 2, 2026
Installed on
opencode2
codebuddy2
qwen-code2
claude-code2
github-copilot2
codex2