censor-strategy-analysis
SKILL.md
机审策略分析Skill
功能说明
一站式机审策略分析工具,支持图片标注和策略生成全流程:
- 无标注数据:提供本地图片标注工具,支持在线标注并自动写入人审结果列
- 有标注数据:自动分析带有人审结果的机审数据,生成可直接落地的审核策略
- 自动计算每个策略的准确率、精确率、召回率、F1值等指标
触发场景
- 上传无标注机审数据,需要先进行人工标注再生成策略
- 已有标注好的机审数据,需要直接生成审核策略
- 需要评估现有审核策略的效果
- 分析自训练模型策略
严格执行流程(必须100%遵守,禁止私自修改)
场景1:无标注数据(文件没有「人审结果」列)
- 提示用户:检测到文件没有「人审结果」列,需要先进行人工标注
- 提供两个选项:「立即跳转标注流程」/「我确认文件包含人审结果,将提供列名」
- 如果用户选择「立即跳转标注流程」:
- 询问标注数量(建议至少100条)
- 生成标注页面并提供给用户
- 等待用户标注完成后上传标注结果CSV
- 合并标注结果到原始CSV
- 生成机审策略
- 如果用户选择「我确认文件包含人审结果」:
- 让用户提供人审结果列的准确列名
- 校验列是否存在且格式正确
- 生成机审策略
- 禁止:不得私自寻找其他列冒充人审结果,不得使用历史分析结果冒充新生成结果
场景2:已有标注数据(文件包含「人审结果」列)
- 脚本自动识别“人审结果”列
- 直接执行策略生成脚本
- 输出真实的分析结果,禁止伪造结果
功能说明
一站式机审策略分析工具,支持图片标注和策略生成全流程:
- 无标注数据:提供本地图片标注工具,支持在线标注并自动写入人审结果列
- 有标注数据:自动分析带有人审结果的机审数据,生成可直接落地的审核策略
- 自动计算每个策略的准确率、精确率、召回率、F1值等指标
- 支持单字段阈值策略和2~6字段的AND组合策略,不支持OR组合策略
- 统一使用英文列名
humanResult作为人工审核结果字段,避免中文编码乱码问题
人审结果字段要求
- 默认自动查找字段名为
humanResult的列作为人工审核标签 - 支持数字型结果(1=不通过,0=通过)和中文型结果(通过/不通过/合规/违规等)
- 标注工具会自动新增
humanResult列到CSV文件中 - 兼容中文列名“人审结果”,会自动转换为标准英文列名
humanResult
脚本使用
生成标注页面(无标注数据)
# 参数:CSV文件路径、操作类型=generate、标注数量、输出HTML页面路径
python scripts/process_annotation.py <机审数据CSV路径> generate <标注数量> <输出HTML路径>
# 示例:生成200条数据的标注页面
python scripts/process_annotation.py data.csv generate 200 标注页面.html
合并标注结果并生成策略(标注完成后)
# 参数:原始CSV路径、操作类型=merge、标注结果CSV路径、输出合并CSV路径
python scripts/process_annotation.py <原始机审CSV路径> merge <标注结果CSV路径> <合并结果CSV路径>
直接生成策略(已有标注数据)
# 参数:带标注的CSV路径、[输出文件路径]、[采样行数]
python scripts/generate_censor_strategies.py <带标注的CSV路径> [输出文件路径] [采样行数]
输出说明
生成的策略列表包含:
- 唯一编号的策略(1、2、3...)
- 具体到字段和阈值的策略详情(无模糊描述)
- 每个策略的准确率、精确率、召回率、F1值指标
- 按F1值从优到劣排序