spark-diagnosis
SKILL.md
Spark 任务诊断工作流
核心逻辑
任务状态?
├── FAILED → 错误优先:diagnostics → driver 日志(exitCode + 回溯)→ executor 层
└── 其他(慢/卡住)→ 时间优先:timeline phases → dominant 方向 → 下钻
每条结论必须有:现象 → 归因 → 验证。不验证就不写进报告。
前置条件
- macOS / Linux 入口:
scripts/sre-hadoop - Windows 入口:
scripts/sre-hadoop.cmd - skill 内置
bin/sre-hadoop-<os>-<arch>[.exe]多平台产物,自动选择 - 配置:
~/.sre-hadoop/config.json - 输出:JSON 信封
{"ok": true, "data": {...}}