机审策略分析Skill

功能说明

一站式机审策略分析工具，支持图片标注和策略生成全流程：

无标注数据：提供本地图片标注工具，支持在线标注并自动写入人审结果列
有标注数据：自动分析带有人审结果的机审数据，生成可直接落地的审核策略
自动计算每个策略的准确率、精确率、召回率、F1值等指标

触发场景

上传无标注机审数据，需要先进行人工标注再生成策略
已有标注好的机审数据，需要直接生成审核策略
需要评估现有审核策略的效果
分析自训练模型策略

严格执行流程（必须100%遵守，禁止私自修改）

场景1：无标注数据（文件没有「人审结果」列）

提示用户：检测到文件没有「人审结果」列，需要先进行人工标注
提供两个选项：「立即跳转标注流程」/「我确认文件包含人审结果，将提供列名」
如果用户选择「立即跳转标注流程」：
- 询问标注数量（建议至少100条）
- 生成标注页面并提供给用户
- 等待用户标注完成后上传标注结果CSV
- 合并标注结果到原始CSV
- 生成机审策略
如果用户选择「我确认文件包含人审结果」：
- 让用户提供人审结果列的准确列名
- 校验列是否存在且格式正确
- 生成机审策略
禁止：不得私自寻找其他列冒充人审结果，不得使用历史分析结果冒充新生成结果

场景2：已有标注数据（文件包含「人审结果」列）

脚本自动识别“人审结果”列
直接执行策略生成脚本
输出真实的分析结果，禁止伪造结果

功能说明

一站式机审策略分析工具，支持图片标注和策略生成全流程：

无标注数据：提供本地图片标注工具，支持在线标注并自动写入人审结果列
有标注数据：自动分析带有人审结果的机审数据，生成可直接落地的审核策略
自动计算每个策略的准确率、精确率、召回率、F1值等指标
支持单字段阈值策略和2~6字段的AND组合策略，不支持OR组合策略
统一使用英文列名humanResult作为人工审核结果字段，避免中文编码乱码问题

人审结果字段要求

默认自动查找字段名为humanResult的列作为人工审核标签
支持数字型结果（1=不通过，0=通过）和中文型结果（通过/不通过/合规/违规等）
标注工具会自动新增humanResult列到CSV文件中
兼容中文列名“人审结果”，会自动转换为标准英文列名humanResult

脚本使用

生成标注页面（无标注数据）

# 参数：CSV文件路径、操作类型=generate、标注数量、输出HTML页面路径
python scripts/process_annotation.py <机审数据CSV路径> generate <标注数量> <输出HTML路径>
# 示例：生成200条数据的标注页面
python scripts/process_annotation.py data.csv generate 200 标注页面.html

合并标注结果并生成策略（标注完成后）

# 参数：原始CSV路径、操作类型=merge、标注结果CSV路径、输出合并CSV路径
python scripts/process_annotation.py <原始机审CSV路径> merge <标注结果CSV路径> <合并结果CSV路径>

直接生成策略（已有标注数据）

# 参数：带标注的CSV路径、[输出文件路径]、[采样行数]
python scripts/generate_censor_strategies.py <带标注的CSV路径> [输出文件路径] [采样行数]

输出说明

生成的策略列表包含：

唯一编号的策略（1、2、3...）
具体到字段和阈值的策略详情（无模糊描述）
每个策略的准确率、精确率、召回率、F1值指标
按F1值从优到劣排序

censor-strategy-analysis

机审策略分析Skill

功能说明

触发场景

严格执行流程（必须100%遵守，禁止私自修改）

场景1：无标注数据（文件没有「人审结果」列）

场景2：已有标注数据（文件包含「人审结果」列）

功能说明

人审结果字段要求

脚本使用

生成标注页面（无标注数据）

合并标注结果并生成策略（标注完成后）

直接生成策略（已有标注数据）

输出说明