zh-article-analyzer
Installation
SKILL.md
繁體中文文章深度分析器
概述
本技能對繁體中文文章執行 兩階段分析:
- 量化階段:執行 Python 腳本,產出客觀數據指標(附行號定位)
- 質性階段:基於量化數據,由 LLM 進行深層修辭、典故、論證結構分析
最終整合為一份「文章指紋報告」。
第一階段:量化分析(Python 腳本)
前置準備
pip install jieba --break-system-packages -q
執行分析腳本
腳本位於 scripts/zh_analyzer.py,接受文章檔案路徑作為輸入:
python3 /path/to/skill/scripts/zh_analyzer.py /path/to/article.txt
腳本會輸出 JSON 格式的量化分析結果,包含以下模組:
模組 A:基礎統計
- 總字數、總段落數、總句數
- 每段字數分佈(均值、標準差、最大最小)
- 每句字數分佈(均值、標準差、變異係數)
- 標點符號密度與分佈
模組 B:詞彙豐富度(Lexical Richness)
- Type-Token Ratio (TTR):不重複詞數 / 總詞數
- Hapax Legomena 比率:只出現一次的詞佔比
- 詞頻分佈(前 30 高頻詞,標記功能詞/實詞)
- 功能詞指紋:虛詞(的、了、在、把、被、而、則、之、其)的使用頻率向量
模組 C:句式節奏分析(Rhythm)
- 句長序列的 Shannon Entropy(可預測性)
- 句長變異係數(節奏起伏感)
- 四字格密度(每千字出現次數,含精確位置)
- 標點切分的「氣口」長度分佈
- 長短句交替模式偵測
模組 D:語域特徵(Register)
- 文白比:文言用詞佔比(基於常見文言虛詞與句式偵測)
- 成語與四字格密度
- 字頻層級分佈:常用字 / 次常用字 / 罕用字比例
- 外來語與專有名詞密度
模組 E:段落層級情感弧線
- 每段的正負情感粗估值(基於情感詞典)
- 情感轉折點標記(段落編號)
所有指標都附帶 行號範圍 或 段落編號,以便在報告中精確引用。
讀取分析結果
腳本輸出 JSON 到 stdout,格式範例見 references/output_schema.md。
第二階段:質性分析(LLM 深度解讀)
基於量化數據與原文,進行以下質性分析。每項分析都必須引用具體段落或行號。
F:引用與典故圖譜(Intertextuality)
逐段掃描文章,標記所有:
- 明確引用(直接引述他人語句)
- 暗引/化用(改寫或融入已知典故、名句、歷史事件)
- 學科領域歸類(文學、哲學、歷史、科學、宗教、流行文化等)
- 時代跨度(最古到最新的引用年代)
產出格式:
段落 3(行 15-18):化用《莊子·逍遙遊》「鯤鵬」意象 → 領域:先秦哲學
段落 7(行 42-44):引用 Steve Jobs 史丹佛演講 → 領域:當代科技/勵志
G:論證結構分析(Argumentation)
標記每個段落的論證角色:
- 前提(Premise)
- 主張(Claim)
- 證據(Evidence)
- 反駁(Rebuttal)
- 讓步(Concession)
- 總結(Conclusion)
計算各角色佔比,評估論證完整性。
H:修辭手法標記(Rhetorical Devices)
逐段標記修辭手法:
- 譬喻(明喻、暗喻、借喻)
- 排比、對偶、層遞
- 反問、設問
- 誇飾、轉化
- 映襯、頂真、回文
- 其他(標註具體手法名稱)
每個標記包含:段落號、行號範圍、手法名稱、原文摘錄(10字以內)。
I:主題結構與轉折(Topic Flow)
分析全文的主題推進方式:
- 每段的核心主題關鍵詞(3-5 個)
- 主題轉折點(哪一段開始切換主題)
- 主題推進模式(線性推進 / 迴旋深入 / 對比並列 / 問答展開)
- 首尾呼應程度評估
報告產出格式
最終報告為 Markdown 格式,結構如下:
# 文章指紋分析報告
## 一、文章概要
- 檔案名稱 / 標題
- 總字數、段落數、句數
## 二、量化指標摘要
### 2.1 詞彙豐富度
### 2.2 句式節奏特徵
### 2.3 語域特徵
### 2.4 情感弧線圖(用文字描述趨勢或產出簡易圖表)
## 三、質性分析
### 3.1 引用與典故圖譜
### 3.2 論證結構
### 3.3 修辭手法清單
### 3.4 主題結構與轉折
## 四、文章指紋總結
- 風格標籤(例:「學術散文/文白交融/節奏緊湊/引用密集-跨領域」)
- 作者特徵推測
- 與典型風格的比較定位
## 五、附錄:逐段詳細標記表
(每段的所有量化與質性標記彙整)
報告應儲存為 .md 檔案,放在 /mnt/user-data/outputs/ 供使用者下載。
工作流程
- 確認使用者已提供文章(檔案或貼入文字)
- 若為貼入文字,先存為
/home/claude/article_input.txt - 安裝依賴:
pip install jieba --break-system-packages -q - 執行量化腳本:
python3 scripts/zh_analyzer.py <文章路徑> - 讀取 JSON 結果
- 執行質性分析(逐段閱讀原文,結合量化數據)
- 整合為報告,存入
/mnt/user-data/outputs/article_analysis_report.md - 使用
present_files呈現報告
注意事項
- 所有行號使用 1-based indexing(第一行 = 行 1)
- 段落以空行分隔,段落編號從 1 開始
- 四字格偵測不限成語,包含所有四字連續結構
- 文白比偵測是粗估,基於特徵詞表,非精確語言學標注
- 若文章極短(< 200 字),跳過部分統計指標並註明原因
- 情感分析為粗估,僅作趨勢參考,不作為精確判斷依據