Small Language Content Audit Skill

小语种内容安全合规审核 Skill，专注小语种文本风险识别与精准风控规则建设。

功能

对小语种漏判文本进行深度审核
识别违反互联网内容安全治理规定的风险点
提取违规关键词/短语并给出中文翻译
生成高精准、低误伤的正则表达式
将正则表达式翻译为10种语言

使用方式

方式一：直接分析文本

# 分析单条文本
python3 scripts/audit.py --text "违规文本内容" --lang 语种

# 示例
python3 scripts/audit.py --text "sample violating content" --lang en

方式二：批量分析CSV文件

# 批量处理CSV文件
python3 scripts/audit.py --input assets/sample_input.csv --output results.json

方式三：作为库调用

from scripts.audit import ContentAuditor

auditor = ContentAuditor()
result = auditor.analyze("违规文本", language="en")
print(result.to_json())

输入文件格式

CSV文件格式（见 assets/template.csv）：

id,content,language,source
1,"违规文本1","en","user_report"
2,"违规文本2","ar","auto_detection"

字段说明：

id: 文本唯一标识
content: 待审核文本内容
language: 语种代码（可选，留空则自动检测）
source: 来源标识（可选）

输出格式

JSON格式输出包含以下字段：

{
  "id": "文本ID",
  "content": "原始文本",
  "language": "检测语种",
  "risk_level": "high/medium/low",
  "risk_categories": ["涉政", "暴恐", "色情", "诈骗", "广告"],
  "keywords": [
    {
      "word": "违规词",
      "translation_zh": "中文翻译",
      "category": "风险类别",
      "position": [0, 10]
    }
  ],
  "regex_patterns": [
    {
      "pattern": "正则表达式",
      "description": "规则说明",
      "precision": "high/medium/low"
    }
  ],
  "translations": {
    "zh": "中文翻译",
    "en": "English translation",
    "fr": "Traduction française",
    "de": "Deutsche Übersetzung",
    "es": "Traducción española",
    "pt": "Tradução portuguesa",
    "ru": "Русский перевод",
    "ar": "الترجمة العربية",
    "ja": "日本語訳",
    "id": "Terjemahan Indonesia",
    "ko": "한국어 번역"
  }
}

支持语种

英语 (en)
阿拉伯语 (ar)
俄语 (ru)
日语 (ja)
韩语 (ko)
印尼语 (id)
法语 (fr)
德语 (de)
西班牙语 (es)
葡萄牙语 (pt)
以及其他小语种

风险类别

涉政: 政治敏感内容
暴恐: 暴力恐怖内容
色情: 色情淫秽内容
诈骗: 欺诈诈骗内容
广告: 垃圾广告/营销内容
侵权: 知识产权侵权
隐私: 隐私泄露内容
仇恨: 仇恨言论

正则表达式规范

生成的正则表达式遵循以下原则：

精准匹配: 避免过度使用 .* 或 .+ 导致误伤
模糊匹配: 支持大小写忽略、常见变体、形近/音近替换
边界控制: 使用单词边界 \b 避免部分匹配
性能优化: 避免回溯灾难，保证匹配效率
可读性: 添加注释说明，便于维护

示例

输入

Free money!!! Click here to win $1000 instantly!!! Limited time offer!!!

输出

{
  "risk_level": "medium",
  "risk_categories": ["广告", "诈骗"],
  "keywords": [
    {
      "word": "Free money",
      "translation_zh": "免费金钱",
      "category": "诈骗"
    },
    {
      "word": "Click here",
      "translation_zh": "点击这里",
      "category": "广告"
    },
    {
      "word": "win $1000 instantly",
      "translation_zh": "立即赢取1000美元",
      "category": "诈骗"
    }
  ],
  "regex_patterns": [
    {
      "pattern": "(?i)\\b(free\\s+money|easy\\s+money|quick\\s+cash)\\b",
      "description": "匹配免费/轻松赚钱类诈骗话术",
      "precision": "high"
    },
    {
      "pattern": "(?i)\\b(click\\s+here|click\\s+below|tap\\s+here)\\b",
      "description": "匹配诱导点击类广告话术",
      "precision": "high"
    }
  ]
}

注意事项

本 Skill 提供的是基础审核能力，实际部署时需要根据业务场景调整规则
正则表达式需要经过测试验证后再上线使用
建议定期更新关键词库和规则库以适应新的违规形式
对于复杂场景，建议结合机器学习模型进行综合判断

依赖

Python 3.8+
无需额外依赖（标准库实现）

版本

v1.0.0 - 初始版本

small-lang-content-audit

Small Language Content Audit Skill

功能

使用方式

方式一：直接分析文本

方式二：批量分析CSV文件

方式三：作为库调用

输入文件格式

输出格式

支持语种

风险类别

正则表达式规范

示例

输入

输出

注意事项

依赖

版本