zh-article-analyzer

Installation
SKILL.md

繁體中文文章深度分析器

概述

本技能對繁體中文文章執行 兩階段分析

  1. 量化階段:執行 Python 腳本,產出客觀數據指標(附行號定位)
  2. 質性階段:基於量化數據,由 LLM 進行深層修辭、典故、論證結構分析

最終整合為一份「文章指紋報告」。


第一階段:量化分析(Python 腳本)

前置準備

pip install jieba --break-system-packages -q

執行分析腳本

腳本位於 scripts/zh_analyzer.py,接受文章檔案路徑作為輸入:

python3 /path/to/skill/scripts/zh_analyzer.py /path/to/article.txt

腳本會輸出 JSON 格式的量化分析結果,包含以下模組:

模組 A:基礎統計

  • 總字數、總段落數、總句數
  • 每段字數分佈(均值、標準差、最大最小)
  • 每句字數分佈(均值、標準差、變異係數)
  • 標點符號密度與分佈

模組 B:詞彙豐富度(Lexical Richness)

  • Type-Token Ratio (TTR):不重複詞數 / 總詞數
  • Hapax Legomena 比率:只出現一次的詞佔比
  • 詞頻分佈(前 30 高頻詞,標記功能詞/實詞)
  • 功能詞指紋:虛詞(的、了、在、把、被、而、則、之、其)的使用頻率向量

模組 C:句式節奏分析(Rhythm)

  • 句長序列的 Shannon Entropy(可預測性)
  • 句長變異係數(節奏起伏感)
  • 四字格密度(每千字出現次數,含精確位置)
  • 標點切分的「氣口」長度分佈
  • 長短句交替模式偵測

模組 D:語域特徵(Register)

  • 文白比:文言用詞佔比(基於常見文言虛詞與句式偵測)
  • 成語與四字格密度
  • 字頻層級分佈:常用字 / 次常用字 / 罕用字比例
  • 外來語與專有名詞密度

模組 E:段落層級情感弧線

  • 每段的正負情感粗估值(基於情感詞典)
  • 情感轉折點標記(段落編號)

所有指標都附帶 行號範圍段落編號,以便在報告中精確引用。

讀取分析結果

腳本輸出 JSON 到 stdout,格式範例見 references/output_schema.md


第二階段:質性分析(LLM 深度解讀)

基於量化數據與原文,進行以下質性分析。每項分析都必須引用具體段落或行號。

F:引用與典故圖譜(Intertextuality)

逐段掃描文章,標記所有:

  • 明確引用(直接引述他人語句)
  • 暗引/化用(改寫或融入已知典故、名句、歷史事件)
  • 學科領域歸類(文學、哲學、歷史、科學、宗教、流行文化等)
  • 時代跨度(最古到最新的引用年代)

產出格式:

段落 3(行 15-18):化用《莊子·逍遙遊》「鯤鵬」意象 → 領域:先秦哲學
段落 7(行 42-44):引用 Steve Jobs 史丹佛演講 → 領域:當代科技/勵志

G:論證結構分析(Argumentation)

標記每個段落的論證角色:

  • 前提(Premise)
  • 主張(Claim)
  • 證據(Evidence)
  • 反駁(Rebuttal)
  • 讓步(Concession)
  • 總結(Conclusion)

計算各角色佔比,評估論證完整性。

H:修辭手法標記(Rhetorical Devices)

逐段標記修辭手法:

  • 譬喻(明喻、暗喻、借喻)
  • 排比、對偶、層遞
  • 反問、設問
  • 誇飾、轉化
  • 映襯、頂真、回文
  • 其他(標註具體手法名稱)

每個標記包含:段落號、行號範圍、手法名稱、原文摘錄(10字以內)。

I:主題結構與轉折(Topic Flow)

分析全文的主題推進方式:

  • 每段的核心主題關鍵詞(3-5 個)
  • 主題轉折點(哪一段開始切換主題)
  • 主題推進模式(線性推進 / 迴旋深入 / 對比並列 / 問答展開)
  • 首尾呼應程度評估

報告產出格式

最終報告為 Markdown 格式,結構如下:

# 文章指紋分析報告

## 一、文章概要
- 檔案名稱 / 標題
- 總字數、段落數、句數

## 二、量化指標摘要
### 2.1 詞彙豐富度
### 2.2 句式節奏特徵
### 2.3 語域特徵
### 2.4 情感弧線圖(用文字描述趨勢或產出簡易圖表)

## 三、質性分析
### 3.1 引用與典故圖譜
### 3.2 論證結構
### 3.3 修辭手法清單
### 3.4 主題結構與轉折

## 四、文章指紋總結
- 風格標籤(例:「學術散文/文白交融/節奏緊湊/引用密集-跨領域」)
- 作者特徵推測
- 與典型風格的比較定位

## 五、附錄:逐段詳細標記表
(每段的所有量化與質性標記彙整)

報告應儲存為 .md 檔案,放在 /mnt/user-data/outputs/ 供使用者下載。


工作流程

  1. 確認使用者已提供文章(檔案或貼入文字)
  2. 若為貼入文字,先存為 /home/claude/article_input.txt
  3. 安裝依賴:pip install jieba --break-system-packages -q
  4. 執行量化腳本:python3 scripts/zh_analyzer.py <文章路徑>
  5. 讀取 JSON 結果
  6. 執行質性分析(逐段閱讀原文,結合量化數據)
  7. 整合為報告,存入 /mnt/user-data/outputs/article_analysis_report.md
  8. 使用 present_files 呈現報告

注意事項

  • 所有行號使用 1-based indexing(第一行 = 行 1)
  • 段落以空行分隔,段落編號從 1 開始
  • 四字格偵測不限成語,包含所有四字連續結構
  • 文白比偵測是粗估,基於特徵詞表,非精確語言學標注
  • 若文章極短(< 200 字),跳過部分統計指標並註明原因
  • 情感分析為粗估,僅作趨勢參考,不作為精確判斷依據
Installs
4
GitHub Stars
15
First Seen
Apr 5, 2026