eval
코드 Eval (독립 평가)
Generator(구현자)와 분리된 Evaluator 에이전트를 스폰하여 산출물을 독립 평가합니다.
실행 프로세스
Step 1: Evaluator 에이전트 스폰
Agent(subagent_type="evaluator",
prompt="~/.claude/agents/evaluator.md를 읽고 현재 프로젝트를 평가하라.
4축(기능 정확성/코드 품질/독창성/사용성&보안) 100점 만점.
결과를 EVAL_REPORT.md에 저장.")
Step 2: 결과 확인
Evaluator가 완료되면 EVAL_REPORT.md를 읽고 사용자에게 요약 보고:
📊 Eval 결과: [PASS/CONDITIONAL/FAIL] — [N]/100점
기능 정확성: [N]/40 | 코드 품질: [N]/25
독창성: [N]/20 | 사용성&보안: [N]/15
[수정 필요 항목 요약]
Step 3: CONDITIONAL/FAIL 시
수정 필요 항목을 구체적으로 안내하고, 수정 후 재평가할지 질문. 재평가 시 동일 기준 적용 (최대 5라운드).
pass@k 멱등성 테스트 (선택)
동일 프롬프트로 k회 실행하여 품질 일관성을 측정:
# k=3 실행 예시
for i in 1 2 3; do
/eval 실행 → 점수 기록
done
# 3회 모두 85+ → 멱등성 확보
# 점수 분산 > 15점 → 불안정 (하네스 조정 필요)
수준의 멱등성: 정확히 같은 코드가 아니라 같은 품질 수준이 유지되는지 측정.
More from jh941213/my-claude-code-asset
shadcn-ui
|
34frontend
|
23stitch-react
Stitch 스크린을 React 컴포넌트 시스템으로 변환합니다 — 디자인 토큰 추출, 컴포넌트 분해, TypeScript 타입 생성, 자동 검증 포함. Triggers on: Stitch React, 컴포넌트 변환, React 변환, HTML to React. NOT for: 새 React 앱 생성, API 구현.
23stitch-enhance-prompt
모호한 UI 아이디어를 Stitch에 최적화된 상세 프롬프트로 변환합니다 — 구체성 향상, UI/UX 키워드 추가, 디자인 시스템 컨텍스트 주입. Triggers on: 프롬프트 향상, Stitch 프롬프트, UI 아이디어, 프롬프트 개선. NOT for: 직접 코딩, React 구현.
22ui-ux-pro-max
UI/UX design intelligence. 50 styles, 21 palettes, 50 font pairings, 20 charts, 9 stacks (React, Next.js, Vue, Svelte, SwiftUI, React Native, Flutter, Tailwind, shadcn/ui). Actions: plan, build, create, design, implement, review, fix, improve, optimize, enhance, refactor, check UI/UX code. Projects: website, landing page, dashboard, admin panel, e-commerce, SaaS, portfolio, blog, mobile app, .html, .tsx, .vue, .svelte. Elements: button, modal, navbar, sidebar, card, table, form, chart. Styles: glassmorphism, claymorphism, minimalism, brutalism, neumorphism, bento grid, dark mode, responsive, skeuomorphism, flat design. Topics: color palette, accessibility, animation, layout, typography, font pairing, spacing, hover, shadow, gradient. Integrations: shadcn/ui MCP for component search and examples.
18react-patterns
|
17