easydata-smart-ops
SKILL.md
EasyData Smart Ops
EasyData 智能运维助手 - 场景驱动,流程闭环。
依赖
工具依赖
- easydata - EasyData CLI 工具(必需)
本技能的所有底层操作(实例查询、重跑、日志获取等)均通过 easydata 工具执行。
安装
npx skills add https://skills.netease.im/gitea/wangjinjie/easydata.git -a '*'
配置
本技能使用 easydata 工具的配置,配置方式详见 easydata 技能文档。
场景说明
详见:references/
支持的运维场景
| 场景 | 描述 | 详见 |
|---|---|---|
| 实例队列错误修复 | 诊断并修复队列配置错误 | [instance-ops.md](./references/instance-ops.md#场景 -1 队列错误修复) |
| 实例 OOM 内存优化 | SPARK 内存不足时调整参数重跑 | [instance-ops.md](./references/instance-ops.md#场景 -2oom-内存优化) |
| 实例诊断闭环 | 从任务实例失败诊断到重跑的完整流程 | [instance-ops.md](./references/instance-ops.md#场景 -3 完整诊断闭环) |
| 实例状态跟踪 | 检查实例状态 | [instance-ops.md](./references/instance-ops.md#场景 -4 持续跟踪) |
| SPARK 参数优化重跑 | 定义 SPARK executorMemory, driverMemory 重跑 | [instance-ops.md](./references/instance-ops.md#场景 -5 参数优化重跑) |
底层依赖
基于 easydata 的 easytaskops 模块,主要接口命令:
| 功能 | 命令 | 说明 |
|---|---|---|
| 实例查询 | get_exec_job_applications |
获取调度实例下所有 job 节点的 yarn application 列表 |
| 实例详情 | get_exec_instance |
获取调度实例详情(已就绪实例使用 execId 查询;未就绪实例使用 flow+project+scheduleTime 查询) |
| 实例重跑 | rerun_exec_instance |
重跑调度实例。自动沿用上次运行配置重跑所有失败节点。可选传入 sparkExecutorMemory/sparkDriverMemory 覆盖 Spark 节点内存配置 |
| 实例终止 | kill_exec_instance |
终止调度实例 |
| 节点日志 | get_instance_job_log |
获取调度实例(任务)节点日志 |
| Yarn 日志 | get_yarn_application_log_url |
获取 yarn 上对应 application 的日志链接,支持 Spark 和 MapReduce 等类型。返回列表每项包含:id(executor/attempt 标识)、stdout/stderr/logs(日志链接对象,包含 officeUrl 办公网地址和 serverUrl 机房网地址)、diagnostics(application 级别诊断信息)。优先返回 officeUrl 办公网地址。Spark 任务若 trackingUI=UNASSIGNED 则返回仅含 diagnostics 的单条记录。 |