skills/skills.netease.im/small-lang-content-audit

small-lang-content-audit

SKILL.md

Small Language Content Audit Skill

小语种内容安全合规审核 Skill,专注小语种文本风险识别与精准风控规则建设。

功能

  • 对小语种漏判文本进行深度审核
  • 识别违反互联网内容安全治理规定的风险点
  • 提取违规关键词/短语并给出中文翻译
  • 生成高精准、低误伤的正则表达式
  • 将正则表达式翻译为10种语言

使用方式

方式一:直接分析文本

# 分析单条文本
python3 scripts/audit.py --text "违规文本内容" --lang 语种

# 示例
python3 scripts/audit.py --text "sample violating content" --lang en

方式二:批量分析CSV文件

# 批量处理CSV文件
python3 scripts/audit.py --input assets/sample_input.csv --output results.json

方式三:作为库调用

from scripts.audit import ContentAuditor

auditor = ContentAuditor()
result = auditor.analyze("违规文本", language="en")
print(result.to_json())

输入文件格式

CSV文件格式(见 assets/template.csv):

id,content,language,source
1,"违规文本1","en","user_report"
2,"违规文本2","ar","auto_detection"

字段说明:

  • id: 文本唯一标识
  • content: 待审核文本内容
  • language: 语种代码(可选,留空则自动检测)
  • source: 来源标识(可选)

输出格式

JSON格式输出包含以下字段:

{
  "id": "文本ID",
  "content": "原始文本",
  "language": "检测语种",
  "risk_level": "high/medium/low",
  "risk_categories": ["涉政", "暴恐", "色情", "诈骗", "广告"],
  "keywords": [
    {
      "word": "违规词",
      "translation_zh": "中文翻译",
      "category": "风险类别",
      "position": [0, 10]
    }
  ],
  "regex_patterns": [
    {
      "pattern": "正则表达式",
      "description": "规则说明",
      "precision": "high/medium/low"
    }
  ],
  "translations": {
    "zh": "中文翻译",
    "en": "English translation",
    "fr": "Traduction française",
    "de": "Deutsche Übersetzung",
    "es": "Traducción española",
    "pt": "Tradução portuguesa",
    "ru": "Русский перевод",
    "ar": "الترجمة العربية",
    "ja": "日本語訳",
    "id": "Terjemahan Indonesia",
    "ko": "한국어 번역"
  }
}

支持语种

  • 英语 (en)
  • 阿拉伯语 (ar)
  • 俄语 (ru)
  • 日语 (ja)
  • 韩语 (ko)
  • 印尼语 (id)
  • 法语 (fr)
  • 德语 (de)
  • 西班牙语 (es)
  • 葡萄牙语 (pt)
  • 以及其他小语种

风险类别

  • 涉政: 政治敏感内容
  • 暴恐: 暴力恐怖内容
  • 色情: 色情淫秽内容
  • 诈骗: 欺诈诈骗内容
  • 广告: 垃圾广告/营销内容
  • 侵权: 知识产权侵权
  • 隐私: 隐私泄露内容
  • 仇恨: 仇恨言论

正则表达式规范

生成的正则表达式遵循以下原则:

  1. 精准匹配: 避免过度使用 .*.+ 导致误伤
  2. 模糊匹配: 支持大小写忽略、常见变体、形近/音近替换
  3. 边界控制: 使用单词边界 \b 避免部分匹配
  4. 性能优化: 避免回溯灾难,保证匹配效率
  5. 可读性: 添加注释说明,便于维护

示例

输入

Free money!!! Click here to win $1000 instantly!!! Limited time offer!!!

输出

{
  "risk_level": "medium",
  "risk_categories": ["广告", "诈骗"],
  "keywords": [
    {
      "word": "Free money",
      "translation_zh": "免费金钱",
      "category": "诈骗"
    },
    {
      "word": "Click here",
      "translation_zh": "点击这里",
      "category": "广告"
    },
    {
      "word": "win $1000 instantly",
      "translation_zh": "立即赢取1000美元",
      "category": "诈骗"
    }
  ],
  "regex_patterns": [
    {
      "pattern": "(?i)\\b(free\\s+money|easy\\s+money|quick\\s+cash)\\b",
      "description": "匹配免费/轻松赚钱类诈骗话术",
      "precision": "high"
    },
    {
      "pattern": "(?i)\\b(click\\s+here|click\\s+below|tap\\s+here)\\b",
      "description": "匹配诱导点击类广告话术",
      "precision": "high"
    }
  ]
}

注意事项

  1. 本 Skill 提供的是基础审核能力,实际部署时需要根据业务场景调整规则
  2. 正则表达式需要经过测试验证后再上线使用
  3. 建议定期更新关键词库和规则库以适应新的违规形式
  4. 对于复杂场景,建议结合机器学习模型进行综合判断

依赖

  • Python 3.8+
  • 无需额外依赖(标准库实现)

版本

v1.0.0 - 初始版本

Installs
1
First Seen
Apr 5, 2026