繁體中文文章深度分析器

概述

本技能對繁體中文文章執行 兩階段分析：

量化階段：執行 Python 腳本，產出客觀數據指標（附行號定位）
質性階段：基於量化數據，由 LLM 進行深層修辭、典故、論證結構分析

最終整合為一份「文章指紋報告」。

第一階段：量化分析（Python 腳本）

前置準備

pip install jieba --break-system-packages -q

執行分析腳本

腳本位於 scripts/zh_analyzer.py，接受文章檔案路徑作為輸入：

python3 /path/to/skill/scripts/zh_analyzer.py /path/to/article.txt

腳本會輸出 JSON 格式的量化分析結果，包含以下模組：

模組 A：基礎統計

總字數、總段落數、總句數
每段字數分佈（均值、標準差、最大最小）
每句字數分佈（均值、標準差、變異係數）
標點符號密度與分佈

模組 B：詞彙豐富度（Lexical Richness）

Type-Token Ratio (TTR)：不重複詞數 / 總詞數
Hapax Legomena 比率：只出現一次的詞佔比
詞頻分佈（前 30 高頻詞，標記功能詞/實詞）
功能詞指紋：虛詞（的、了、在、把、被、而、則、之、其）的使用頻率向量

模組 C：句式節奏分析（Rhythm）

句長序列的 Shannon Entropy（可預測性）
句長變異係數（節奏起伏感）
四字格密度（每千字出現次數，含精確位置）
標點切分的「氣口」長度分佈
長短句交替模式偵測

模組 D：語域特徵（Register）

文白比：文言用詞佔比（基於常見文言虛詞與句式偵測）
成語與四字格密度
字頻層級分佈：常用字 / 次常用字 / 罕用字比例
外來語與專有名詞密度

模組 E：段落層級情感弧線

每段的正負情感粗估值（基於情感詞典）
情感轉折點標記（段落編號）

所有指標都附帶 行號範圍 或 段落編號，以便在報告中精確引用。

讀取分析結果

腳本輸出 JSON 到 stdout，格式範例見 references/output_schema.md。

第二階段：質性分析（LLM 深度解讀）

基於量化數據與原文，進行以下質性分析。每項分析都必須引用具體段落或行號。

F：引用與典故圖譜（Intertextuality）

逐段掃描文章，標記所有：

明確引用（直接引述他人語句）
暗引/化用（改寫或融入已知典故、名句、歷史事件）
學科領域歸類（文學、哲學、歷史、科學、宗教、流行文化等）
時代跨度（最古到最新的引用年代）

產出格式：

段落 3（行 15-18）：化用《莊子·逍遙遊》「鯤鵬」意象 → 領域：先秦哲學
段落 7（行 42-44）：引用 Steve Jobs 史丹佛演講 → 領域：當代科技/勵志

G：論證結構分析（Argumentation）

標記每個段落的論證角色：

前提（Premise）
主張（Claim）
證據（Evidence）
反駁（Rebuttal）
讓步（Concession）
總結（Conclusion）

計算各角色佔比，評估論證完整性。

H：修辭手法標記（Rhetorical Devices）

逐段標記修辭手法：

譬喻（明喻、暗喻、借喻）
排比、對偶、層遞
反問、設問
誇飾、轉化
映襯、頂真、回文
其他（標註具體手法名稱）

每個標記包含：段落號、行號範圍、手法名稱、原文摘錄（10字以內）。

I：主題結構與轉折（Topic Flow）

分析全文的主題推進方式：

每段的核心主題關鍵詞（3-5 個）
主題轉折點（哪一段開始切換主題）
主題推進模式（線性推進 / 迴旋深入 / 對比並列 / 問答展開）
首尾呼應程度評估

報告產出格式

最終報告為 Markdown 格式，結構如下：

# 文章指紋分析報告

## 一、文章概要
- 檔案名稱 / 標題
- 總字數、段落數、句數

## 二、量化指標摘要
### 2.1 詞彙豐富度
### 2.2 句式節奏特徵
### 2.3 語域特徵
### 2.4 情感弧線圖（用文字描述趨勢或產出簡易圖表）

## 三、質性分析
### 3.1 引用與典故圖譜
### 3.2 論證結構
### 3.3 修辭手法清單
### 3.4 主題結構與轉折

## 四、文章指紋總結
- 風格標籤（例：「學術散文/文白交融/節奏緊湊/引用密集-跨領域」）
- 作者特徵推測
- 與典型風格的比較定位

## 五、附錄：逐段詳細標記表
（每段的所有量化與質性標記彙整）

報告應儲存為 .md 檔案，放在 /mnt/user-data/outputs/ 供使用者下載。

工作流程

確認使用者已提供文章（檔案或貼入文字）
若為貼入文字，先存為 /home/claude/article_input.txt
安裝依賴：pip install jieba --break-system-packages -q
執行量化腳本：python3 scripts/zh_analyzer.py <文章路徑>
讀取 JSON 結果
執行質性分析（逐段閱讀原文，結合量化數據）
整合為報告，存入 /mnt/user-data/outputs/article_analysis_report.md
使用 present_files 呈現報告

注意事項

所有行號使用 1-based indexing（第一行 = 行 1）
段落以空行分隔，段落編號從 1 開始
四字格偵測不限成語，包含所有四字連續結構
文白比偵測是粗估，基於特徵詞表，非精確語言學標注
若文章極短（< 200 字），跳過部分統計指標並註明原因
情感分析為粗估，僅作趨勢參考，不作為精確判斷依據

zh-article-analyzer