抗 AI 評量矯正系統 v1.0

核心立場

「目標不是讓學生無法使用 AI，而是讓評量能真正測到學生的思考。好的評量設計本來就不怕 AI——因為它測的是 AI 無法代替的能力。」

Step 0：讀取必要文件

../../tw_edu_concept_alignment.md — 概念對齊協議（必讀）
../../tw_edu_grade_adapter.md — 年級適應系統
../../tw_edu_guided_collection.md — 引導式收集框架
references/anti_ai_strategies.md — 抗 AI 策略庫
references/ai_vulnerability_rubric.md — AI 可答性評估規準
/mnt/skills/public/docx/SKILL.md — Word 文件生成

Step 1：概念對齊（執行任何工作前必做）

讀取 tw_edu_concept_alignment.md 的完整流程後執行：

鏡像反射

「我理解您想要的是：
  分析您的評量，找出可以被 AI 輕易完成的題目，
  並在保持相同學習目標的前提下，提供改良版本。

  在我開始之前，請幫我確認以下資訊：」

概念對齊核心問題（評量矯正專用）

A. 「這份評量的目的是什麼？
   診斷（了解學習落差）/ 形成（課堂即時回饋）/ 總結（成績評定）」

B. 「您最擔心學生用 AI 作弊的是哪個部分？
   （寫作類 / 選擇題 / 問答題 / 作業作品 / 全部）」

C. 「學生完成這份評量的情境是什麼？
   課堂現場（可控）/ 回家作業（開放環境）/ 線上測驗（混合）」

D. 「您最不願意犧牲的學習目標是什麼？
   （確保改良後仍測到這個能力）」

對齊確認卡

╔═══════════ 抗 AI 評量矯正 — 概念對齊確認 ═══════════╗

📌 任務：分析並矯正評量的 AI 可答性
🎯 評量目的：{診斷/形成/總結}
👤 目標學生：{年級} ／ 作答情境：{課堂/回家/線上}
⚠️  最高風險區：{使用者指出的最擔心部分}
🔒 不可犧牲的目標：{核心學習能力}
📄 我將分析：{題目數量}

確認後我開始逐題分析。
╚════════════════════════════════════════════════════════╝

Step 2：AI 可答性分析框架

五維度評估矩陣

對每一道題目，從以下五個維度評估 AI 可答性（0-4 分，共 20 分）：

維度 1：情境特殊性（Context Specificity）
  0 = 通用問題，AI 能直接回答（「什麼是比喻法？」）
  1 = 有輕微情境，AI 容易改編
  2 = 需要課文/教師提供的特定情境
  3 = 需要學生個人經驗或本地知識
  4 = 完全個人化，AI 不知道學生的真實情況

維度 2：輸出獨特性（Output Uniqueness）
  0 = 有標準答案，AI 準確率極高
  1 = 有範圍答案，AI 可猜測
  2 = 需要特定文本或數據作答
  3 = 需要個人觀點或創意（但 AI 可偽造）
  4 = 需要真實的個人敘事或在地知識

維度 3：過程可見性（Process Visibility）
  0 = 只要結果，無需過程（AI 完全適合）
  1 = 要求說明但不嚴格
  2 = 要求詳細推理過程
  3 = 要求展示思考演進（草稿/修改痕跡）
  4 = 要求口頭說明或現場展示

維度 4：時間與即時性（Temporal Immediacy）
  0 = 課後無時間限制（AI 幫助最大）
  1 = 有時間限制但可在家完成
  2 = 短時間課堂任務
  3 = 即時課堂口頭回應
  4 = 現場實作或觀察

維度 5：整合複雜度（Integration Complexity）
  0 = 單一知識點，AI 容易整合
  1 = 2 個概念整合
  2 = 跨章節/跨課知識整合
  3 = 需整合個人經驗 + 課程知識
  4 = 需整合真實在地情境 + 多課程知識

AI 可答性總分判定

總分 0-5   ｜ critical  極高風險：AI 可以幾乎完美作答
總分 6-10  ｜ high      高風險：AI 能輕易生成合格答案
總分 11-14 ｜ medium    中度風險：AI 能生成，但品質有限
總分 15-18 ｜ low       低風險：AI 答案明顯不足
總分 19-20 ｜ minimal   極低風險：AI 基本無法有效代答

結構化評分輸出（JSON）

完成五維度評估後，輸出以下 JSON 供後續處理與比較：

{
  "item_id": "Q1",
  "overall_risk": "high",
  "total_score": 8,
  "dimensions": {
    "context_specificity": 2,
    "output_uniqueness": 1,
    "process_visibility": 2,
    "temporal_immediacy": 2,
    "integration_complexity": 1
  },
  "main_weakness": "無個人情境，AI 可套用通用模板",
  "recommended_strategies": [1, 2, 6],
  "corrected_score_estimate": 15
}

整批評量完成後輸出摘要 JSON：

{
  "summary": {
    "total_items": 10,
    "critical": 2,
    "high": 3,
    "medium": 3,
    "low": 2,
    "avg_score": 9.4,
    "overall_risk": "high"
  },
  "items": [
    {"item_id": "Q1", "overall_risk": "high",   "total_score": 8},
    {"item_id": "Q2", "overall_risk": "critical","total_score": 4}
  ]
}

Step 3：各題型 AI 弱點與矯正策略

寫作類（AI 風險最高）

原題問題分析

高風險特徵：
□ 命題無個人情境（「寫一篇關於友誼的文章」）
□ 格式要求單一（「寫 300 字作文」）
□ 無真實讀者（只有教師閱讀）
□ 無真實目的（只為了交作業）
□ 無過程要求（只看最終成品）

矯正策略（RAFT 框架 + 過程要求）

R = Role（角色設定）：學生扮演特定角色
A = Audience（真實讀者）：有真實對象
F = Format（格式）：非傳統作文格式
T = Topic（個人化主題）：連結學生真實經驗

矯正前：「以『友誼』為題，寫 300 字作文」

矯正後：
「想像你是班刊的主編，本期主題是『那個讓你想到就笑的朋友』。
 請寫一篇 250 字的人物特寫給全班同學看，
 要求：
 ① 至少描述一個你親眼見到的具體場景（時間/地點/發生什麼）
 ② 說明這個朋友如何影響了你的某個習慣或想法
 ③ 結尾用一句話呈現你想對這位朋友說但從來沒說的話
 
 過程要求：繳交時附上 50 字以內的「本人聲明」，
           說明你寫的是真實的人和真實的場景。」

AI 可答性分析：
  原題：5 分（極高風險）→ 矯正後：16 分（低風險）
  關鍵改變：個人化情境 + 真實讀者 + 過程聲明

問答/簡答類

矯正策略（SOLO + 鷹架移除）

高風險寫法 → 低風險寫法：

❌「說明《背影》這篇文章的主題」
  AI 可以完美作答

✅「在《背影》中，朱自清寫父親買橘子這個動作，
   你認為這和你上學期讀過的哪篇文章，在表達情感的方式上
   最不一樣？請用兩篇文章的具體句子比較說明。（100 字以內）」
   → AI 不知道學生這學期讀了什麼，無法完整回答

✅「讀完《背影》之後，你對『父親』這個概念的想法有沒有改變？
   如果沒有改變，說明為什麼這篇文章沒有打動你；
   如果有改變，說明改變前後的差異。（不接受「改變了，因為很感人」
   這類模糊答案，必須說清楚改變了什麼想法）」
   → 要求真實個人立場，AI 只能猜

選擇題

矯正策略（情境嵌套 + 多步驟）

❌「下列何者是比喻的修辭？
   (A)她的聲音如鈴聲般悅耳 (B)他跑得很快 ...」
   → AI 正確率接近 100%

✅ 提供一段你班上同學寫的短文（真實匿名），
   問：「下列哪個修改建議，最能保留原作者的個人風格
        同時改善修辭？」
   → AI 無法獲取班上同學的實際作品

開放探究題

矯正策略（三層鷹架移除）

設計漸進式移除 AI 可用的鷹架：

層次 1（高 AI 風險）：
「說明人工智慧對教育的影響。」

層次 2（中 AI 風險）：
「說明你這學期在學校使用 AI 工具的三個實際經驗，
 並分析每次使用帶來的學習幫助或學習損失。」

層次 3（低 AI 風險）：
「本週課堂中，你用 AI 完成了什麼任務？
 請描述你如何判斷 AI 的回答是否可信，
 以及你做了哪些驗證或修改。
 （需要附上你和 AI 的對話截圖作為佐證）」

層次 4（極低 AI 風險）：
「現在口頭說明：你剛才的答案中，哪一個判斷
 是你自己的，哪一個是 AI 幫你的？
 如果要繼續探究這個問題，你下一步會怎麼做？」

Step 4：十大抗 AI 評量設計策略

策略 1：個人化情境（Personalization）
  要求連結學生自己的真實經驗、班級事件、在地場景
  「你在[具體地點/時間/事件]中…」

策略 2：過程文件化（Process Documentation）
  不只評成品，評思考演進過程
  要求：草稿 + 修改紀錄 + 反思說明

策略 3：本地脈絡（Local Context）
  使用只有本班/本校學生知道的資料
  「根據我們校慶活動的觀察…」「以本班前測數據…」

策略 4：即時性（Immediacy）
  增加口頭說明、現場展示的要求
  書面完成後：「請準備 2 分鐘口頭解釋你的推理過程」

策略 5：元認知要求（Metacognition）
  要求學生說明自己的思考過程，而不只是結果
  「你是如何得出這個結論的？遇到什麼困難？如何解決？」

策略 6：真實讀者（Real Audience）
  讓學生為真實的對象寫作（同學/家長/社區/公開）
  不是只為了交給老師

策略 7：整合式任務（Integrated Task）
  整合多個課程的知識，AI 難以整合特定課程脈絡
  「連結本學期的三個主題，設計一個解決方案…」

策略 8：不完美刻意設計（Strategic Imperfection）
  提供有錯誤的範本，要求學生找出並改正
  「以下是一位同學的作品，請找出3個問題…」

策略 9：選擇與說明（Choice + Justification）
  讓學生選擇，並要求說明選擇理由
  「以下三種格式任選一種，並說明你選擇它的原因」

策略 10：多輪修改（Iterative Revision）
  不接受一次性提交，要求根據回饋修改
  第一版 → 教師/同儕回饋 → 第二版 → 說明改了什麼

Step 5：生成矯正報告

python scripts/generate_anti_ai_report.py \
  --assessment_text "[評量文字，或從上傳文件解析]" \
  --purpose "[diagnostic/formative/summative]" \
  --grade "[年級]" \
  --context "[classroom/homework/online]" \
  --core_objective "[不可犧牲的學習目標]" \
  --output "/mnt/user-data/outputs/抗AI評量矯正報告.docx"

Step 6：矯正報告結構

文件架構（.docx）

封面
  任務概述 + 評量目的 + 概念對齊確認結果

第一部分：AI 可答性全面掃描
  ┌─────────────────────────────────────────┐
  │ 題目 | AI 風險 | 五維得分 | 主要弱點    │
  │ #1   | 🔴極高  | 4分/20   | 無個人情境  │
  │ #2   | 🟠高    | 8分/20   | 無過程要求  │
  │ #3   | 🟢低    | 16分/20  | 有本地脈絡  │
  └─────────────────────────────────────────┘
  整體評估：{X} 題高風險 / {X} 題中風險 / {X} 題低風險

第二部分：逐題矯正方案（核心）
  針對每一道 🔴🟠 題目：
  [原題]
  ✗ AI 弱點分析：{具體說明 AI 如何輕易作答}
  ✓ 矯正原則：{使用了哪幾項抗 AI 策略}
  [矯正後題目]（完整改寫，可直接使用）
  [對比說明]：{修改前後 AI 可答性分數對比}

第三部分：保留原題的說明
  針對 🟢 題目：說明為什麼這題不需要修改

第四部分：執行建議
  ├── 立即可做：{不改題目，只改收作業方式}
  ├── 短期改善：{題目微調建議}
  └── 長期設計：{評量架構的根本轉型建議}

附錄：抗 AI 評量設計參考手冊
  （十大策略說明 + 適用年級 + 實施難度）

Step 7：執行注意事項

矯正的邊界

保持學習目標：矯正是手段，不是目的絕不因為「更難讓 AI 作答」而犧牲重要的學習目標
考量實施可行性：建議有「容易實施」到「需要改革」的分級
避免懲罰性設計：目的不是讓學生痛苦，是讓學習更真實

關於學生使用 AI 的立場

本工具的設計立場：

承認 AI 工具是現實，不是要消滅學生使用 AI
目標是設計讓學生「用了 AI 也還要自己思考」的評量
好的評量設計，AI 是工具而非替代品

MCP 連接器

Claude Code / Claude.ai（若相關 MCP 已連接）

WebSearch：
  搜尋最新抗 AI 評量設計研究
  搜尋同類型評量的優秀範例
  關鍵詞：AI-resistant assessment, authentic assessment 2024

Canva MCP（選用）：
  若使用者要求「做一份給學生的評量說明海報」
  → 呼叫 Canva 生成視覺化版本

Google Drive（選用）：
  上傳矯正報告到教師的雲端備份

其他平台

WebSearch 為主要工具，其餘功能不可用時輸出本地文件。

tw-edu-anti-ai-assessment