llm-wiki
SKILL.md
LLM Wiki v2 — 个人知识系统
核心理念
LLM Wiki 不是 RAG,不是问答,是编译。
- RAG:每次问问题,LLM 从原始文档里临时检索答案,用完即忘
- LLM Wiki:LLM 把原始文档编译成结构化 wiki,后续直接读 wiki
知识编译一次,持续复用,不再每次重新发现。
v2 在此基础上增加了:知识生命周期管理(置信度、衰减、supersession)和知识分层(working → episodic → semantic → procedural)。
v2 架构
raw/ 原始资料(不可修改)
↓ ingest_raw.py 扫描登记
manifests/raw_sources.csv 原始资料索引
↓ 编译 LLM 感知后编译
docs/wiki/
├── index.md 内容总览
├── log.md 时间线日志(追加式)
├── entities/ 实体卡(自动抽取)
│ ├── entities.csv 实体索引
│ ├── person/ · concept/ · decision/ · project/ · file/ · tool/
├── sessions/ 知识分层
│ ├── working/ 当前 session 原始观察
│ └── episodic/ session 压缩总结
├── semantic/ 跨 session 结构化事实
└── procedural/ 工作流和模式
scripts/
├── bootstrap.py 初始化 wiki 结构
├── ingest_raw.py 扫描原始资料
├── wiki_check.py 结构校验
├── lint_v2.py 自愈式 lint(--fix 自动修复)
├── entity_extract.py 实体抽取
├── confidence_score.py 置信度评分(--fix 更新 frontmatter)
└── consolidate.py 知识分层整合(--tier episodic/semantic/all)
Session 协议
每次开始
- 读
docs/wiki/index.md— wiki 里有什么 - 读
docs/wiki/current-status.md— 项目状态 - 读
docs/wiki/log.md— 最近 session 历史 - 根据任务读对应页面
任务进行中
- 收到原始资料(截图、PDF、Excel)→ 登记到
manifests/raw_sources.csv - 产生持久结论 → 立即写回 wiki 页面
- 完成子任务 → 更新
current-status.md
每次结束
- 追加一行到
log.md:## [YYYY-MM-DD] | 主题 | 关键结论 - 更新
current-status.md - 写回所有未完成的 wiki 页面
- 运行
entity_extract.py重新抽取实体(如有新增内容)
v2 知识生命周期
置信度
每个 wiki 页面带有 confidence 字段(0.0–1.0),随时间衰减:
- 新确认的跨 session 事实:0.7–0.9
- 单次 session 总结:0.5–0.6
- 90 天后开始衰减,365 天后降至最低 0.1
运行 confidence_score.py 查看和更新置信度:
python3 scripts/confidence_score.py --root /path/to/project --show-stale
python3 scripts/confidence_score.py --root /path/to/project --fix # 直接更新 frontmatter
Supersession(替代机制)
新信息替代旧信息时:
- 不要删除旧页面
- 旧页面 frontmatter:
status: superseded,superseded_by: [新页面名] - 新页面:
source: supersedes <旧页面> - 旧页面保留在 wiki 中,检索时优先选新版
四层整合
consolidate.py 将知识向上推进:
# 全部整合(working → episodic → semantic)
python3 scripts/consolidate.py --root /path/to/project
# 只做 episodic(当前 session → 总结)
python3 scripts/consolidate.py --root /path/to/project --tier episodic
# 只做 semantic(汇总重复模式)
python3 scripts/consolidate.py --root /path/to/project --tier semantic
wiki 页面格式(v2)
每个页面必须以 YAML frontmatter 开头,详见 frontmatter-v2.md:
---
title: 页面标题
source: 来源
created: 2026-04-11
tags: [标签]
status: active # active | superseded | archived
confidence: 0.7 # 0.0-1.0
superseded_by: [] # 当 superseded 时填写
---
实体抽取
entity_extract.py 自动从 wiki 页面提取结构化实体(人物、项目、概念、文件、决策),输出实体卡和 entities.csv:
python3 scripts/entity_extract.py --root /path/to/project
自愈式 Lint
lint_v2.py 检查并自动修复 wiki 结构问题:
# 只报告
python3 scripts/lint_v2.py --root /path/to/project
# 自动修复(添加缺失 frontmatter、标记失效链接)
python3 scripts/lint_v2.py --root /path/to/project --fix
搜索策略
详见 search-guide.md。
- 小规模(< 50 页):直接读 index.md + 按需读页面
- 中规模(50–200 页):index + grep + entity 跳转
- 大规模(200+ 页):index + grep + graph 遍历
何时用 / 何时不用
适合:
- 文档多、规则多、原始资料多
- 跨 session 累积知识
- 多轮分析、调研、方案追踪
不适合:
- 一次性简单问答
- 两天内完成的 demo
- 无需累积知识的临时任务
实现路径(v2)
v2 是渐进式实现,按需升级:
| 阶段 | 内容 |
|---|---|
| Minimal viable | raw + wiki + index + schema(compile-first/writeback) |
| + Lifecycle | 置信度评分、supersession、基本衰减 |
| + Structure | 实体抽取、知识图谱、关系类型 |
| + Automation | 事件驱动 hooks、自动 lint、context 注入 |
| + Scale | 四层整合、混合搜索、质量控制 |
从 minimal viable 开始,根据需要升级。