skills/skills.netease.im/censor-strategy-analysis

censor-strategy-analysis

SKILL.md

机审策略分析Skill

功能说明

一站式机审策略分析工具,支持图片标注策略生成全流程:

  1. 无标注数据:提供本地图片标注工具,支持在线标注并自动写入人审结果列
  2. 有标注数据:自动分析带有人审结果的机审数据,生成可直接落地的审核策略
  3. 自动计算每个策略的准确率、精确率、召回率、F1值等指标

触发场景

  • 上传无标注机审数据,需要先进行人工标注再生成策略
  • 已有标注好的机审数据,需要直接生成审核策略
  • 需要评估现有审核策略的效果
  • 分析自训练模型策略

严格执行流程(必须100%遵守,禁止私自修改)

场景1:无标注数据(文件没有「人审结果」列)

  1. 提示用户:检测到文件没有「人审结果」列,需要先进行人工标注
  2. 提供两个选项:「立即跳转标注流程」/「我确认文件包含人审结果,将提供列名」
  3. 如果用户选择「立即跳转标注流程」:
    • 询问标注数量(建议至少100条)
    • 生成标注页面并提供给用户
    • 等待用户标注完成后上传标注结果CSV
    • 合并标注结果到原始CSV
    • 生成机审策略
  4. 如果用户选择「我确认文件包含人审结果」:
    • 让用户提供人审结果列的准确列名
    • 校验列是否存在且格式正确
    • 生成机审策略
  5. 禁止:不得私自寻找其他列冒充人审结果,不得使用历史分析结果冒充新生成结果

场景2:已有标注数据(文件包含「人审结果」列)

  1. 脚本自动识别“人审结果”列
  2. 直接执行策略生成脚本
  3. 输出真实的分析结果,禁止伪造结果

功能说明

一站式机审策略分析工具,支持图片标注策略生成全流程:

  1. 无标注数据:提供本地图片标注工具,支持在线标注并自动写入人审结果列
  2. 有标注数据:自动分析带有人审结果的机审数据,生成可直接落地的审核策略
  3. 自动计算每个策略的准确率、精确率、召回率、F1值等指标
  4. 支持单字段阈值策略和2~6字段的AND组合策略,不支持OR组合策略
  5. 统一使用英文列名humanResult作为人工审核结果字段,避免中文编码乱码问题

人审结果字段要求

  • 默认自动查找字段名为humanResult的列作为人工审核标签
  • 支持数字型结果(1=不通过,0=通过)和中文型结果(通过/不通过/合规/违规等)
  • 标注工具会自动新增humanResult列到CSV文件中
  • 兼容中文列名“人审结果”,会自动转换为标准英文列名humanResult

脚本使用

生成标注页面(无标注数据)

# 参数:CSV文件路径、操作类型=generate、标注数量、输出HTML页面路径
python scripts/process_annotation.py <机审数据CSV路径> generate <标注数量> <输出HTML路径>
# 示例:生成200条数据的标注页面
python scripts/process_annotation.py data.csv generate 200 标注页面.html

合并标注结果并生成策略(标注完成后)

# 参数:原始CSV路径、操作类型=merge、标注结果CSV路径、输出合并CSV路径
python scripts/process_annotation.py <原始机审CSV路径> merge <标注结果CSV路径> <合并结果CSV路径>

直接生成策略(已有标注数据)

# 参数:带标注的CSV路径、[输出文件路径]、[采样行数]
python scripts/generate_censor_strategies.py <带标注的CSV路径> [输出文件路径] [采样行数]

输出说明

生成的策略列表包含:

  • 唯一编号的策略(1、2、3...)
  • 具体到字段和阈值的策略详情(无模糊描述)
  • 每个策略的准确率、精确率、召回率、F1值指标
  • 按F1值从优到劣排序
Installs
1
First Seen
11 days ago