protocol-entity-extraction
SKILL.md
Protocol 实体抽取
从 Protocol PDF/DOCX 中抽取 SAP 所需的全部关键实体,输出结构化 JSON。
Quick Start
from utils.document_parser import get_document_parser
parser = get_document_parser()
synopsis = await parser.parse(protocol_path, page_range=[1, 15])
stats = await parser.parse(protocol_path, page_range=[90, 115])
解析策略
多段定向解析:Synopsis(p1-15,高表格) -> Design(p30-50) -> Statistics(p90-115,纯文本) -> SAP Appendix(p240+)
解析引擎(四级降级)
DocumentParser 自动选择最优引擎:
- Unstructured API (云端) — 需要 UNSTRUCTURED_API_KEY,表格+OCR 最强
- Docling (本地 AI) — IBM 开源,视觉+语言模型做表格识别,无需 API Key,推荐本地首选
- pdfplumber (本地) — 文本+简单表格
- PyPDF2 (本地) — 仅纯文本兜底
如果 UNSTRUCTURED_API_KEY 未配置且 Docling 已安装,会自动使用 Docling(表格识别精度远高于 pdfplumber)。
References
- prompts/ — 6 个专用抽取 Prompt
- scripts/parse_protocol.py — 多段解析编排
- scripts/merge_entities.py — 实体合并与交叉验证
- schemas/protocol_entities.json — 输出 JSON Schema
- reference/section_mapping.md — 章节分类规则
Weekly Installs
1
Repository
malue-ai/dazee-smallGitHub Stars
31
First Seen
13 days ago
Security Audits
Installed on
amp1
cline1
openclaw1
opencode1
cursor1
kimi-cli1