skills/skills.netease.im/easydata-smart-ops

easydata-smart-ops

SKILL.md

EasyData Smart Ops

EasyData 智能运维助手 - 场景驱动,流程闭环

依赖

工具依赖

  • easydata - EasyData CLI 工具(必需)

本技能的所有底层操作(实例查询、重跑、日志获取等)均通过 easydata 工具执行。

安装

npx skills add https://skills.netease.im/gitea/wangjinjie/easydata.git -a '*'

配置

本技能使用 easydata 工具的配置,配置方式详见 easydata 技能文档。

场景说明

详见:references/

支持的运维场景

场景 描述 详见
实例队列错误修复 诊断并修复队列配置错误 [instance-ops.md](./references/instance-ops.md#场景 -1 队列错误修复)
实例 OOM 内存优化 SPARK 内存不足时调整参数重跑 [instance-ops.md](./references/instance-ops.md#场景 -2oom-内存优化)
实例诊断闭环 从任务实例失败诊断到重跑的完整流程 [instance-ops.md](./references/instance-ops.md#场景 -3 完整诊断闭环)
实例状态跟踪 检查实例状态 [instance-ops.md](./references/instance-ops.md#场景 -4 持续跟踪)
SPARK 参数优化重跑 定义 SPARK executorMemory, driverMemory 重跑 [instance-ops.md](./references/instance-ops.md#场景 -5 参数优化重跑)

底层依赖

基于 easydataeasytaskops 模块,主要接口命令:

功能 命令 说明
实例查询 get_exec_job_applications 获取调度实例下所有 job 节点的 yarn application 列表
实例详情 get_exec_instance 获取调度实例详情(已就绪实例使用 execId 查询;未就绪实例使用 flow+project+scheduleTime 查询)
实例重跑 rerun_exec_instance 重跑调度实例。自动沿用上次运行配置重跑所有失败节点。可选传入 sparkExecutorMemory/sparkDriverMemory 覆盖 Spark 节点内存配置
实例终止 kill_exec_instance 终止调度实例
节点日志 get_instance_job_log 获取调度实例(任务)节点日志
Yarn 日志 get_yarn_application_log_url 获取 yarn 上对应 application 的日志链接,支持 Spark 和 MapReduce 等类型。返回列表每项包含:id(executor/attempt 标识)、stdout/stderr/logs(日志链接对象,包含 officeUrl 办公网地址和 serverUrl 机房网地址)、diagnostics(application 级别诊断信息)。优先返回 officeUrl 办公网地址。Spark 任务若 trackingUI=UNASSIGNED 则返回仅含 diagnostics 的单条记录。
Installs
4
First Seen
Apr 2, 2026