system-watchdog

SKILL.md

System Watchdog

本技能专门用于从底层日志和 CLI 数据中提取真实的系统运行状态,确保汇报内容"有据可查",杜绝幻觉。

🚨 安全红线 (Security Policy)

严禁在报告中暴露以下敏感信息

敏感类型 示例 处理规则
API Key sk-abc123..., Bearer token ❌ 完全禁止
Provider 账号标识 moonshot:default ❌ 禁止,只保留 provider 名称
密钥文件路径 ~/.openclaw/secrets/... ❌ 完全禁止
模型名称 moonshot/kimi-k2.5 ✅ 允许显示
Provider 名称 moonshot, google, anthropic ✅ 允许显示

核心职责

  1. 日志穿透:读取 gateway.loggateway.err.log 获取重启、错误和模型切换记录。
  2. LLM 健康追踪:捕获 provider 冷却、auth 失败、rate limit、failover 链路等详细信息。
  3. 任务追踪:准确汇报 Cron 任务的最近运行结果(成功/失败、耗时)。
  4. 中文输出:所有汇报内容必须使用中文,采用适合手机端阅读的排版风格。

工作流

  1. 数据获取:运行脚本 health_fetcher.py 获取过去 2 小时的 JSON 概览。
  2. 状态判断
    • 如果有 Gateway 重启,分析是 SIGUSR1(配置重载)还是异常崩溃。
    • 如果有 LLM Fallback,分析失败代码(如 429, 500)。
  3. 生成报告:按照固定模板输出中文审计报告。

手机端排版规范

  • 单级列表:禁止嵌套。
  • Emoji 导航
    • 🛰️ Gateway 状态
    • 🧠 模型路由审计
    • 🕒 定时任务追踪
    • 🛡️ 自愈事件 (Watchdog)
    • ⚠️ 异常预警
  • 精简文字:每条目不超过 3 行。

报告模板

🧠 LLM 路由健康

  • 受影响 Providers:列出所有受影响的 provider
  • 冷却事件:按时间列出 provider 和状态
  • 错误统计:Auth 失败、Rate limit、Timeout 次数
  • Failover 链:展示模型切换路径

🛡️ 自愈事件

  • 如果有配置恢复 → 列出恢复时间和来源版本
  • 如果有 Gateway 重启 → 列出重启时间、原因和结果
  • 如果都无 → 显示 "过去2小时无自愈事件"

🕒 定时任务追踪

  • 列出所有任务:名称、执行计划、启用状态
  • 显示上次运行时间和状态
  • 如果 enabled: false → 标注为「已禁用」
Weekly Installs
6
First Seen
Feb 9, 2026
Installed on
openclaw6
gemini-cli2
replit2
github-copilot2
codex2
kimi-cli2