skills/nanzhipro/questskills/document-privacy-audit

document-privacy-audit

Installation
SKILL.md

Document Privacy Audit

概览

执行全文抽取与结构化检索,结合规则与语义判断定位隐私信息,输出带定位与风险等级的汇总报告。

工作流程

  1. 明确范围与交付
  • 确认文件路径与格式、语言、是否包含扫描页。
  • 明确隐私范围(仅 PII,还是包含财务/健康/凭据)。
  • 约定输出格式(Markdown 报告 + JSON 明细,或仅报告)。
  1. 抽取全文并保留定位
  • 优先使用 scripts/extract_text.py 输出 JSONL,保留页码/段落/单元格定位。
  • PDF 如无文本层,提示使用 OCR(ocrmypdftesseract)后再抽取。

示例:

python scripts/extract_text.py --input /path/to/file.pdf --output /path/to/extracted.jsonl
python scripts/extract_text.py --input /path/to/file.docx --output /path/to/extracted.jsonl
  1. 全文检索与结构化理解
  • 对抽取结果做关键词检索(rg 或自定义脚本),保留命中位置。
  • 归纳文档结构与主题,为隐私判断提供上下文(例如表格是名单/账单/病历)。
  1. 识别隐私信息
  • 使用 scripts/pii_scan.py 做规则扫描,生成候选清单。
  • 结合上下文进行语义复核,剔除明显误报并补充漏报。
  • 分类与分级请参考 references/pii_catalog.md

示例:

python scripts/pii_scan.py --input /path/to/extracted.jsonl --output /path/to/pii_report.json
  1. 汇总输出
  • 输出审计摘要、发现明细、风险等级与建议。
  • 所有示例必须脱敏展示,保留定位信息以便复核。

输出模板

# 隐私审计报告
- 文件: <path>
- 扫描范围: <PII/财务/健康/凭据>
- 扫描时间: <YYYY-MM-DD>
- 结论: <低/中/高风险 + 1-2 句说明>

## 发现摘要
| 类别 | 数量 | 示例(脱敏) | 位置 |
| --- | --- | --- | --- |
| 邮箱 | 3 | a***@example.com | page:2, page:5 |
| 手机 | 2 | 13******45 | page:3 |

## 高风险项
- <类别 + 脱敏示例 + 位置 + 风险原因>

## 细项清单
- <类别> | <脱敏示例> | <位置> | <上下文简述>

## 建议
- <脱敏/删除/分级访问/加密存储等>

资源

scripts/

  • extract_text.py: 统一抽取 PDF/Office 文本并保留定位。
  • pii_scan.py: 规则扫描隐私信息并生成 JSON 报告。

references/

  • pii_catalog.md: 隐私类别、风险等级与脱敏示例。
Weekly Installs
3
First Seen
Apr 9, 2026