eval-harness
SKILL.md
评测工具链(Eval Harness)技能(Skill)
一个用于 Claude Code 会话的正式评测框架,实现了评测驱动开发(Eval-Driven Development, EDD)原则。
何时激活
- 为 AI 辅助工作流设置评测驱动开发(EDD)
- 为 Claude Code 任务完成定义通过/失败的标准
- 使用 pass@k 指标衡量智能体(Agent)的可靠性
- 为提示词(Prompt)或智能体(Agent)的变更创建回归测试套件
- 跨模型版本对智能体(Agent)性能进行基准测试
核心理念
评测驱动开发(Eval-Driven Development)将评测视为“AI 开发的单元测试”:
- 在实现之前定义预期行为
- 在开发过程中持续运行评测
- 追踪每次变更带来的回归(Regression)
- 使用 pass@k 指标进行可靠性衡量
评测类型
能力评测(Capability Evals)
测试 Claude 是否能够完成之前无法完成的任务:
[CAPABILITY EVAL: feature-name]
任务:描述 Claude 应该完成的目标
成功标准:
- [ ] 标准 1
- [ ] 标准 2
- [ ] 标准 3
预期输出:对预期结果的描述
回归评测(Regression Evals)
确保变更不会破坏现有功能:
[REGRESSION EVAL: feature-name]
基线(Baseline):SHA 或检查点(checkpoint)名称
测试项:
- existing-test-1: 通过/失败(PASS/FAIL)
- existing-test-2: 通过/失败(PASS/FAIL)
- existing-test-3: 通过/失败(PASS/FAIL)
结果:X/Y 通过(之前为 Y/Y)
评分器(Grader)类型
1. 基于代码的评分器(Code-Based Grader)
使用代码进行确定性检查:
# 检查文件是否包含预期模式
grep -q "export function handleAuth" src/auth.ts && echo "PASS" || echo "FAIL"
# 检查测试是否通过
npm test -- --testPathPattern="auth" && echo "PASS" || echo "FAIL"
# 检查构建是否成功
npm run build && echo "PASS" || echo "FAIL"
2. 基于模型的评分器(Model-Based Grader)
使用 Claude 评测开放式输出:
[MODEL GRADER PROMPT]
评测以下代码变更:
1. 它是否解决了所述问题?
2. 结构是否良好?
3. 是否处理了边缘情况?
4. 错误处理是否得当?
得分:1-5(1=差,5=优秀)
推理:[解释说明]
3. 人工评分器(Human Grader)
标记以进行人工审查:
[HUMAN REVIEW REQUIRED]
变更内容:描述发生了什么变化
原因:为什么需要人工审查
风险等级:低/中/高(LOW/MEDIUM/HIGH)
指标
pass@k
“k 次尝试中至少有一次成功”
- pass@1:首次尝试成功率
- pass@3:3 次尝试内的成功率
- 典型目标:pass@3 > 90%
pass^k
“所有 k 次试验均成功”
- 对可靠性有更高要求
- pass^3:连续 3 次成功
- 用于关键路径
评测工作流
1. 定义(编码前)
## 评测定义:feature-xyz
### 能力评测
1. 可以创建新用户账户
2. 可以验证电子邮件格式
3. 可以安全地对密码进行哈希处理
### 回归评测
1. 现有登录功能仍然正常
2. 会话管理保持不变
3. 注销流程完好无损
### 成功指标
- 对于能力评测:pass@3 > 90%
- 对于回归评测:pass^3 = 100%
2. 实现
编写代码以通过定义的评测。
3. 执行评测
# 运行能力评测
[运行每项能力评测,记录通过/失败]
# 运行回归评测
npm test -- --testPathPattern="existing"
# 生成报告
4. 报告
评测报告:feature-xyz
========================
能力评测:
create-user: 通过 (pass@1)
validate-email: 通过 (pass@2)
hash-password: 通过 (pass@1)
总体: 3/3 通过
回归评测:
login-flow: 通过
session-mgmt: 通过
logout-flow: 通过
总体: 3/3 通过
指标:
pass@1: 67% (2/3)
pass@3: 100% (3/3)
状态:准备好进行评审 (READY FOR REVIEW)
集成模式
实现前(Pre-Implementation)
/eval define feature-name
在 .claude/evals/feature-name.md 创建评测定义文件
实现过程中(During Implementation)
/eval check feature-name
运行当前评测并报告状态
实现后(Post-Implementation)
/eval report feature-name
生成完整的评测报告
评测存储
在项目中存储评测:
.claude/
evals/
feature-xyz.md # 评测定义
feature-xyz.log # 评测运行历史
baseline.json # 回归基线
最佳实践
- 在编码前(BEFORE)定义评测 - 强制对成功标准进行清晰思考
- 频繁运行评测 - 尽早发现回归
- 随时间跟踪 pass@k - 监控可靠性趋势
- 尽可能使用代码评分器 - 确定性优于概率性
- 安全相关需人工评审 - 绝不完全自动化安全检查
- 保持评测快速 - 慢速评测往往不会被运行
- 将评测与代码一同进行版本控制 - 评测是一等公民资产
示例:添加身份验证(Authentication)
## EVAL: add-authentication
### 第 1 阶段:定义 (10 分钟)
能力评测:
- [ ] 用户可以使用电子邮件/密码注册
- [ ] 用户可以使用有效凭据登录
- [ ] 无效凭据被拒绝并显示正确错误
- [ ] 页面重新加载后会话依然持久化
- [ ] 注销后清除会话
回归评测:
- [ ] 公共路由仍可访问
- [ ] API 响应保持不变
- [ ] 数据库架构兼容
### 第 2 阶段:实现 (耗时视情况而定)
[编写代码]
### 第 3 阶段:执行评测
运行:/eval check add-authentication
### 第 4 阶段:报告
评测报告:add-authentication
==============================
能力:5/5 通过 (pass@3: 100%)
回归:3/3 通过 (pass^3: 100%)
状态:准予发布 (SHIP IT)
Weekly Installs
1
Repository
xu-xiang/everyt…-code-zhGitHub Stars
125
First Seen
3 days ago
Security Audits
Installed on
mcpjam1
claude-code1
replit1
junie1
windsurf1
zencoder1