concept-extractor
Concept Extractor
推奨実行モデル & 並列化
モデル: sonnet 必須(opusはコスト3-5倍。精度差は小さい)
並列化: 章をN分割してN Agent並列起動
| 章数 | 推奨並列度 | 各Agent担当章数 |
|---|---|---|
| ~12章 | 2 Agent | 6章ずつ |
| ~24章 | 4 Agent | 6章ずつ |
| ~36章 | 4-6 Agent | 6-9章ずつ |
| 36章+ | 6 Agent | 6-10章ずつ |
Agent起動テンプレート:
Agent(
model: "sonnet",
mode: "bypassPermissions",
run_in_background: true,
prompt: "Process chapters NN-NN of [bundle_path]..."
)
注意: visual-indexerは画像を全Read するため最もコスト重い。必ずsonnet+並列。opusで全章順次は禁じ手。
WHAT
講座のcourse-bundle(manifest.json + 各章のmanual.md/transcript.txt)を入力として、6カテゴリの構造化知識を抽出する。
出力ファイル:
| ファイル | 粒度 | 内容 |
|---|---|---|
knowledge/chXX-knowledge.json |
章単位 | concepts, key_quotes, tacit_knowledge, teaching_patterns, cross_references, resource_references |
knowledge/knowledge-graph.json |
コース全体 | 前提関係グラフ、概念階層、横断テーマ |
スコープ外:
- 画像・スライドの分析(visual-indexerの責務)
- 手順・ワークフローの抽出(procedure-extractorの責務)
- トランスクリプトの作成・整形(course-ingestの責務)
WHY
トランスクリプトは長大で非構造的。そのままではRAGに使えず、マニュアル生成にも活用しにくい。概念・定義・暗黙知を構造化することで:
- マニュアル生成スキルが正確な定義を引用できる
- 前提関係グラフにより学習順序を最適化できる
- 話者の暗黙知が明示化され、AIエージェントのナレッジベースに組み込める
HOW
入力要件
| 必須 | 内容 |
|---|---|
| manifest.json | course-ingestが生成したコース構成ファイル |
| chapters/chXX/manual.md または transcript.txt | 各章のソーステキスト(下記優先順位参照) |
manifest.jsonが見つからない場合はユーザーに確認し、course-ingestの実行を提案すること。
入力の優先順位
各章について、以下の優先順位でソースを選択する:
| 優先度 | ソース | 理由 |
|---|---|---|
| 1 | chapters/{id}/manual.md |
utage-manual出力。編集済み・構造化済み・画像紐付け済み |
| 2 | chapters/{id}/page_text.md |
講座ページの説明文。補足情報を含む |
| 3 | chapters/{id}/transcript.txt |
生トランスクリプト。マニュアルがない場合のフォールバック |
マニュアルがある場合はマニュアルを一次ソースとし、トランスクリプトは マニュアルに含まれていない情報の補完に使う。
BLOCKER: ソーステキスト全文読み込み
各章のmanual.md(またはtranscript.txt)は必ず全文を読んでから抽出を開始すること。 最初の50行だけ読んで始めてはならない。Read toolでoffset/limitを使う場合は、 必ず末尾まで複数回に分けて読み切ること。
6つの抽出カテゴリ
| カテゴリ | 何を抽出するか | 例 |
|---|---|---|
| concept | 名前+定義+具体例 | 「AIマインド=脱AI責思考。AIのせいにせず自分の指示力に責任を持つ」 |
| key_quote | 話者の原文ママの重要発言 | 「AIのせいにした時点でもう何も作れません」 |
| tacit_knowledge | 話者が暗黙的に持つ判断基準 | 「専門知識が深い人ほどAIを使いこなせる。AIは鏡」 |
| teaching_pattern | 話者の教え方パターン | 「痛み提示→原因特定→原則提示→具体事例→マインド再強調」 |
| cross_reference | 他章への参照・前提関係 | 「第9章の魔法台本プロンプトにはこの4原則が前提」 |
| resource_reference | 外部リソースへの言及 | 「Notionにプロンプト格納してます」「PDFダウンロードしてください」 |
カテゴリの判別に迷う場合は references/extraction-taxonomy.md を参照。
resource_reference の検知パターン
トランスクリプトやマニュアル内で以下のパターンを検知:
- 「Notionに〜」「リンクは〜」「概要欄に〜」「ダウンロード〜」
- 「ここに格納」「テンプレート」「プレゼント」「配布物」
- URL言及(notion.so, drive.google.com, etc.)
knowledge.jsonでの出力形式:
"resource_references": [
{
"id": "rr03-01",
"text": "Notionの方にプロンプト格納してます",
"type": "notion_page",
"context": "PredictionXプロンプトの保管場所",
"url_if_detected": null
}
]
処理ステップ
Step 1: manifest.json読み込み → 章リスト取得
Step 2: 各章のソース選択(manual.md優先 → transcript.txtフォールバック)+全文読み込み ← BLOCKER
Step 3: 6カテゴリ抽出(章ごと)
Step 4: chXX-knowledge.json生成(章ごと)
Step 5: 全章処理完了後 → knowledge-graph.json生成
Step 6: 自己検証
Step 1: manifest.json読み込み
manifest.jsonからコース名と章リストを取得する。
Step 2-4: 章ごとの処理
各章について以下を実行:
- ソース選択: manual.mdが存在すればそれを一次ソースとする。なければtranscript.txtにフォールバック
- 一次ソース全文読み込み(BLOCKER: 部分読みNG)。マニュアルがある場合、transcript.txtは補完情報として必要に応じて参照
- concept抽出: 話者が名前をつけて説明している概念を特定。name, definition, examples, key_quotes, speaker_framing, prerequisites, related_conceptsを記録
- key_quote抽出: 強い主張・印象的な表現・核心的な発言を原文ママで記録。要約・意訳は絶対にしない
- tacit_knowledge抽出: 話者が明示的に定義していないが暗黙的に前提としている判断基準・価値観を特定。必ずevidenceとして引用を添える
- teaching_pattern抽出: 話者の説明の構造パターンを特定(例: 痛み→原因→原則→事例→再強調)
- cross_reference抽出: 他章への言及・前提関係を記録
- resource_reference抽出: 外部リソース(Notion, PDF, テンプレート, ダウンロードリンク等)への言及を検知・記録
- chXX-knowledge.json出力
スキーマは schemas/knowledge.schema.json に準拠すること。
Step 5: knowledge-graph.json生成
BLOCKER: 全章のknowledge.json生成完了後に実行すること。1章だけ見て全体グラフを作ってはならない。
全章のknowledge.jsonを統合し:
- prerequisite_graph: concept間の前提関係(cross_referenceとprerequisitesから構築)
- concept_hierarchy: 概念のカテゴリ分類
- cross_chapter_themes: 複数章に横断するテーマ
スキーマは schemas/knowledge-graph.schema.json に準拠すること。
Step 6: 自己検証
以下をすべてチェックし、問題があれば修正:
- 各conceptにname, definition, examplesがあるか
- key_quotesは原文ママか(要約していないか)
- tacit_knowledgeのevidenceにトランスクリプトの引用があるか
- concept IDが全章で一意か(c03-01, c04-01のように章番号含む)
- cross_referenceが実在する章を参照しているか
- knowledge-graph.jsonのprerequisite_graphが実在するconcept IDのみ参照しているか
- total_conceptsの数値が実際のconcept数と一致するか
- マニュアルがある章でマニュアルを一次ソースにしたか
- リソース言及(Notion, PDF, テンプレート等)を検知したか
NG / OK テーブル
| NG | OK | 理由 |
|---|---|---|
| 「重要な概念が述べられている」 | 「AIマインド=脱AI責思考」と名前+定義を記載 | 抽象的な記述は活用不能 |
| key_quoteを要約・意訳する | 話者の原文ママを記録 | 引用は原文が価値 |
| 1章だけ読んで全体のgraphを作る | 全章処理後にgraphを作る | 前提関係は全体を見ないとわからない |
| transcript.txtの最初の50行だけ読む | 全文を読み切ってから抽出開始 | 重要概念が後半にあることが多い |
| examplesを空配列にする | 話者が挙げた具体例を最低1つ記録 | 定義だけでは概念が伝わらない |
| tacit_knowledgeにevidenceなし | トランスクリプトから該当箇所を引用 | 根拠なき推測は信頼できない |
| concept IDを「c1」「c2」と連番にする | 「c03-01」「c04-01」と章番号を含める | 全章で一意性を保証するため |
| definitionに3文以上の長文を書く | 1-2文で簡潔に核心を記述 | 定義は短く明確であるべき |
| マニュアルがあるのにトランスクリプトから抽出 | マニュアルを一次ソースにする | マニュアルは編集済みで品質が高い |
| リソース言及を無視する | resource_referencesとして記録 | スキル化時にリソース取得の手がかりになる |
出力ディレクトリ構造
{course-bundle}/
├── knowledge/
│ ├── ch00-knowledge.json
│ ├── ch01-knowledge.json
│ ├── ...
│ └── knowledge-graph.json
ユーザーへの提示
処理完了後、以下のサマリーを提示:
## Concept Extraction Complete
- コース: {course_name}
- 処理章数: {n}章
- 抽出概念数: {total_concepts}
- 抽出引用数: {total_quotes}
- 暗黙知: {total_tacit}件
- 教え方パターン: {total_patterns}件
- リソース言及: {total_resources}件
- 横断テーマ: {total_themes}件
### 主要概念(上位5件)
1. {concept_name} - {definition}
...
### 横断テーマ
- {theme}: 章{chapters}
...