LLM Wiki v2 — 个人知识系统

核心理念

LLM Wiki 不是 RAG，不是问答，是编译。

RAG：每次问问题，LLM 从原始文档里临时检索答案，用完即忘
LLM Wiki：LLM 把原始文档编译成结构化 wiki，后续直接读 wiki

知识编译一次，持续复用，不再每次重新发现。

v2 在此基础上增加了：知识生命周期管理（置信度、衰减、supersession）和知识分层（working → episodic → semantic → procedural）。

v2 架构

raw/                          原始资料（不可修改）
    ↓ ingest_raw.py            扫描登记
manifests/raw_sources.csv     原始资料索引
    ↓ 编译                     LLM 感知后编译
docs/wiki/
├── index.md                  内容总览
├── log.md                    时间线日志（追加式）
├── entities/                 实体卡（自动抽取）
│   ├── entities.csv           实体索引
│   ├── person/ · concept/ · decision/ · project/ · file/ · tool/
├── sessions/                 知识分层
│   ├── working/             当前 session 原始观察
│   └── episodic/            session 压缩总结
├── semantic/                跨 session 结构化事实
└── procedural/              工作流和模式

scripts/
├── bootstrap.py             初始化 wiki 结构
├── ingest_raw.py            扫描原始资料
├── wiki_check.py            结构校验
├── lint_v2.py               自愈式 lint（--fix 自动修复）
├── entity_extract.py         实体抽取
├── confidence_score.py       置信度评分（--fix 更新 frontmatter）
└── consolidate.py           知识分层整合（--tier episodic/semantic/all）

Session 协议

每次开始

读 docs/wiki/index.md — wiki 里有什么
读 docs/wiki/current-status.md — 项目状态
读 docs/wiki/log.md — 最近 session 历史
根据任务读对应页面

任务进行中

收到原始资料（截图、PDF、Excel）→ 登记到 manifests/raw_sources.csv
产生持久结论 → 立即写回 wiki 页面
完成子任务 → 更新 current-status.md

每次结束

追加一行到 log.md：## [YYYY-MM-DD] | 主题 | 关键结论
更新 current-status.md
写回所有未完成的 wiki 页面
运行 entity_extract.py 重新抽取实体（如有新增内容）

v2 知识生命周期

详见 lifecycle-rules.md。

置信度

每个 wiki 页面带有 confidence 字段（0.0–1.0），随时间衰减：

新确认的跨 session 事实：0.7–0.9
单次 session 总结：0.5–0.6
90 天后开始衰减，365 天后降至最低 0.1

运行 confidence_score.py 查看和更新置信度：

python3 scripts/confidence_score.py --root /path/to/project --show-stale
python3 scripts/confidence_score.py --root /path/to/project --fix   # 直接更新 frontmatter

Supersession（替代机制）

新信息替代旧信息时：

不要删除旧页面
旧页面 frontmatter：status: superseded，superseded_by: [新页面名]
新页面：source: supersedes <旧页面>
旧页面保留在 wiki 中，检索时优先选新版

四层整合

consolidate.py 将知识向上推进：

# 全部整合（working → episodic → semantic）
python3 scripts/consolidate.py --root /path/to/project

# 只做 episodic（当前 session → 总结）
python3 scripts/consolidate.py --root /path/to/project --tier episodic

# 只做 semantic（汇总重复模式）
python3 scripts/consolidate.py --root /path/to/project --tier semantic

wiki 页面格式（v2）

每个页面必须以 YAML frontmatter 开头，详见 frontmatter-v2.md：

---
title: 页面标题
source: 来源
created: 2026-04-11
tags: [标签]
status: active        # active | superseded | archived
confidence: 0.7       # 0.0-1.0
superseded_by: []     # 当 superseded 时填写
---

实体抽取

entity_extract.py 自动从 wiki 页面提取结构化实体（人物、项目、概念、文件、决策），输出实体卡和 entities.csv：

python3 scripts/entity_extract.py --root /path/to/project

自愈式 Lint

lint_v2.py 检查并自动修复 wiki 结构问题：

# 只报告
python3 scripts/lint_v2.py --root /path/to/project

# 自动修复（添加缺失 frontmatter、标记失效链接）
python3 scripts/lint_v2.py --root /path/to/project --fix

搜索策略

详见 search-guide.md。

小规模（< 50 页）：直接读 index.md + 按需读页面
中规模（50–200 页）：index + grep + entity 跳转
大规模（200+ 页）：index + grep + graph 遍历

何时用 / 何时不用

适合：

文档多、规则多、原始资料多
跨 session 累积知识
多轮分析、调研、方案追踪

不适合：

一次性简单问答
两天内完成的 demo
无需累积知识的临时任务

实现路径（v2）

v2 是渐进式实现，按需升级：

阶段	内容
Minimal viable	raw + wiki + index + schema（compile-first/writeback）
+ Lifecycle	置信度评分、supersession、基本衰减
+ Structure	实体抽取、知识图谱、关系类型
+ Automation	事件驱动 hooks、自动 lint、context 注入
+ Scale	四层整合、混合搜索、质量控制

从 minimal viable 开始，根据需要升级。

llm-wiki