small-lang-content-audit
SKILL.md
Small Language Content Audit Skill
小语种内容安全合规审核 Skill,专注小语种文本风险识别与精准风控规则建设。
功能
- 对小语种漏判文本进行深度审核
- 识别违反互联网内容安全治理规定的风险点
- 提取违规关键词/短语并给出中文翻译
- 生成高精准、低误伤的正则表达式
- 将正则表达式翻译为10种语言
使用方式
方式一:直接分析文本
# 分析单条文本
python3 scripts/audit.py --text "违规文本内容" --lang 语种
# 示例
python3 scripts/audit.py --text "sample violating content" --lang en
方式二:批量分析CSV文件
# 批量处理CSV文件
python3 scripts/audit.py --input assets/sample_input.csv --output results.json
方式三:作为库调用
from scripts.audit import ContentAuditor
auditor = ContentAuditor()
result = auditor.analyze("违规文本", language="en")
print(result.to_json())
输入文件格式
CSV文件格式(见 assets/template.csv):
id,content,language,source
1,"违规文本1","en","user_report"
2,"违规文本2","ar","auto_detection"
字段说明:
id: 文本唯一标识content: 待审核文本内容language: 语种代码(可选,留空则自动检测)source: 来源标识(可选)
输出格式
JSON格式输出包含以下字段:
{
"id": "文本ID",
"content": "原始文本",
"language": "检测语种",
"risk_level": "high/medium/low",
"risk_categories": ["涉政", "暴恐", "色情", "诈骗", "广告"],
"keywords": [
{
"word": "违规词",
"translation_zh": "中文翻译",
"category": "风险类别",
"position": [0, 10]
}
],
"regex_patterns": [
{
"pattern": "正则表达式",
"description": "规则说明",
"precision": "high/medium/low"
}
],
"translations": {
"zh": "中文翻译",
"en": "English translation",
"fr": "Traduction française",
"de": "Deutsche Übersetzung",
"es": "Traducción española",
"pt": "Tradução portuguesa",
"ru": "Русский перевод",
"ar": "الترجمة العربية",
"ja": "日本語訳",
"id": "Terjemahan Indonesia",
"ko": "한국어 번역"
}
}
支持语种
- 英语 (en)
- 阿拉伯语 (ar)
- 俄语 (ru)
- 日语 (ja)
- 韩语 (ko)
- 印尼语 (id)
- 法语 (fr)
- 德语 (de)
- 西班牙语 (es)
- 葡萄牙语 (pt)
- 以及其他小语种
风险类别
- 涉政: 政治敏感内容
- 暴恐: 暴力恐怖内容
- 色情: 色情淫秽内容
- 诈骗: 欺诈诈骗内容
- 广告: 垃圾广告/营销内容
- 侵权: 知识产权侵权
- 隐私: 隐私泄露内容
- 仇恨: 仇恨言论
正则表达式规范
生成的正则表达式遵循以下原则:
- 精准匹配: 避免过度使用
.*或.+导致误伤 - 模糊匹配: 支持大小写忽略、常见变体、形近/音近替换
- 边界控制: 使用单词边界
\b避免部分匹配 - 性能优化: 避免回溯灾难,保证匹配效率
- 可读性: 添加注释说明,便于维护
示例
输入
Free money!!! Click here to win $1000 instantly!!! Limited time offer!!!
输出
{
"risk_level": "medium",
"risk_categories": ["广告", "诈骗"],
"keywords": [
{
"word": "Free money",
"translation_zh": "免费金钱",
"category": "诈骗"
},
{
"word": "Click here",
"translation_zh": "点击这里",
"category": "广告"
},
{
"word": "win $1000 instantly",
"translation_zh": "立即赢取1000美元",
"category": "诈骗"
}
],
"regex_patterns": [
{
"pattern": "(?i)\\b(free\\s+money|easy\\s+money|quick\\s+cash)\\b",
"description": "匹配免费/轻松赚钱类诈骗话术",
"precision": "high"
},
{
"pattern": "(?i)\\b(click\\s+here|click\\s+below|tap\\s+here)\\b",
"description": "匹配诱导点击类广告话术",
"precision": "high"
}
]
}
注意事项
- 本 Skill 提供的是基础审核能力,实际部署时需要根据业务场景调整规则
- 正则表达式需要经过测试验证后再上线使用
- 建议定期更新关键词库和规则库以适应新的违规形式
- 对于复杂场景,建议结合机器学习模型进行综合判断
依赖
- Python 3.8+
- 无需额外依赖(标准库实现)
版本
v1.0.0 - 初始版本