tw-edu-anti-ai-assessment

Installation
SKILL.md

抗 AI 評量矯正系統 v1.0

核心立場

「目標不是讓學生無法使用 AI,而是讓評量能真正測到學生的思考。 好的評量設計本來就不怕 AI——因為它測的是 AI 無法代替的能力。」


Step 0:讀取必要文件

  1. ../../tw_edu_concept_alignment.md — 概念對齊協議(必讀)
  2. ../../tw_edu_grade_adapter.md — 年級適應系統
  3. ../../tw_edu_guided_collection.md — 引導式收集框架
  4. references/anti_ai_strategies.md — 抗 AI 策略庫
  5. references/ai_vulnerability_rubric.md — AI 可答性評估規準
  6. /mnt/skills/public/docx/SKILL.md — Word 文件生成

Step 1:概念對齊(執行任何工作前必做)

讀取 tw_edu_concept_alignment.md 的完整流程後執行:

鏡像反射

「我理解您想要的是:
  分析您的評量,找出可以被 AI 輕易完成的題目,
  並在保持相同學習目標的前提下,提供改良版本。

  在我開始之前,請幫我確認以下資訊:」

概念對齊核心問題(評量矯正專用)

A. 「這份評量的目的是什麼?
   診斷(了解學習落差)/ 形成(課堂即時回饋)/ 總結(成績評定)」

B. 「您最擔心學生用 AI 作弊的是哪個部分?
   (寫作類 / 選擇題 / 問答題 / 作業作品 / 全部)」

C. 「學生完成這份評量的情境是什麼?
   課堂現場(可控)/ 回家作業(開放環境)/ 線上測驗(混合)」

D. 「您最不願意犧牲的學習目標是什麼?
   (確保改良後仍測到這個能力)」

對齊確認卡

╔═══════════ 抗 AI 評量矯正 — 概念對齊確認 ═══════════╗

📌 任務:分析並矯正評量的 AI 可答性
🎯 評量目的:{診斷/形成/總結}
👤 目標學生:{年級} / 作答情境:{課堂/回家/線上}
⚠️  最高風險區:{使用者指出的最擔心部分}
🔒 不可犧牲的目標:{核心學習能力}
📄 我將分析:{題目數量}

確認後我開始逐題分析。
╚════════════════════════════════════════════════════════╝

Step 2:AI 可答性分析框架

五維度評估矩陣

對每一道題目,從以下五個維度評估 AI 可答性(0-4 分,共 20 分):

維度 1:情境特殊性(Context Specificity)
  0 = 通用問題,AI 能直接回答(「什麼是比喻法?」)
  1 = 有輕微情境,AI 容易改編
  2 = 需要課文/教師提供的特定情境
  3 = 需要學生個人經驗或本地知識
  4 = 完全個人化,AI 不知道學生的真實情況

維度 2:輸出獨特性(Output Uniqueness)
  0 = 有標準答案,AI 準確率極高
  1 = 有範圍答案,AI 可猜測
  2 = 需要特定文本或數據作答
  3 = 需要個人觀點或創意(但 AI 可偽造)
  4 = 需要真實的個人敘事或在地知識

維度 3:過程可見性(Process Visibility)
  0 = 只要結果,無需過程(AI 完全適合)
  1 = 要求說明但不嚴格
  2 = 要求詳細推理過程
  3 = 要求展示思考演進(草稿/修改痕跡)
  4 = 要求口頭說明或現場展示

維度 4:時間與即時性(Temporal Immediacy)
  0 = 課後無時間限制(AI 幫助最大)
  1 = 有時間限制但可在家完成
  2 = 短時間課堂任務
  3 = 即時課堂口頭回應
  4 = 現場實作或觀察

維度 5:整合複雜度(Integration Complexity)
  0 = 單一知識點,AI 容易整合
  1 = 2 個概念整合
  2 = 跨章節/跨課知識整合
  3 = 需整合個人經驗 + 課程知識
  4 = 需整合真實在地情境 + 多課程知識

AI 可答性總分判定

總分 0-5   | critical  極高風險:AI 可以幾乎完美作答
總分 6-10  | high      高風險:AI 能輕易生成合格答案
總分 11-14 | medium    中度風險:AI 能生成,但品質有限
總分 15-18 | low       低風險:AI 答案明顯不足
總分 19-20 | minimal   極低風險:AI 基本無法有效代答

結構化評分輸出(JSON)

完成五維度評估後,輸出以下 JSON 供後續處理與比較:

{
  "item_id": "Q1",
  "overall_risk": "high",
  "total_score": 8,
  "dimensions": {
    "context_specificity": 2,
    "output_uniqueness": 1,
    "process_visibility": 2,
    "temporal_immediacy": 2,
    "integration_complexity": 1
  },
  "main_weakness": "無個人情境,AI 可套用通用模板",
  "recommended_strategies": [1, 2, 6],
  "corrected_score_estimate": 15
}

整批評量完成後輸出摘要 JSON:

{
  "summary": {
    "total_items": 10,
    "critical": 2,
    "high": 3,
    "medium": 3,
    "low": 2,
    "avg_score": 9.4,
    "overall_risk": "high"
  },
  "items": [
    {"item_id": "Q1", "overall_risk": "high",   "total_score": 8},
    {"item_id": "Q2", "overall_risk": "critical","total_score": 4}
  ]
}

Step 3:各題型 AI 弱點與矯正策略

寫作類(AI 風險最高)

原題問題分析

高風險特徵:
□ 命題無個人情境(「寫一篇關於友誼的文章」)
□ 格式要求單一(「寫 300 字作文」)
□ 無真實讀者(只有教師閱讀)
□ 無真實目的(只為了交作業)
□ 無過程要求(只看最終成品)

矯正策略(RAFT 框架 + 過程要求)

R = Role(角色設定):學生扮演特定角色
A = Audience(真實讀者):有真實對象
F = Format(格式):非傳統作文格式
T = Topic(個人化主題):連結學生真實經驗

矯正前:「以『友誼』為題,寫 300 字作文」

矯正後:
「想像你是班刊的主編,本期主題是『那個讓你想到就笑的朋友』。
 請寫一篇 250 字的人物特寫給全班同學看,
 要求:
 ① 至少描述一個你親眼見到的具體場景(時間/地點/發生什麼)
 ② 說明這個朋友如何影響了你的某個習慣或想法
 ③ 結尾用一句話呈現你想對這位朋友說但從來沒說的話
 
 過程要求:繳交時附上 50 字以內的「本人聲明」,
           說明你寫的是真實的人和真實的場景。」

AI 可答性分析:
  原題:5 分(極高風險)→ 矯正後:16 分(低風險)
  關鍵改變:個人化情境 + 真實讀者 + 過程聲明

問答/簡答類

矯正策略(SOLO + 鷹架移除)

高風險寫法 → 低風險寫法:

❌「說明《背影》這篇文章的主題」
  AI 可以完美作答

✅「在《背影》中,朱自清寫父親買橘子這個動作,
   你認為這和你上學期讀過的哪篇文章,在表達情感的方式上
   最不一樣?請用兩篇文章的具體句子比較說明。(100 字以內)」
   → AI 不知道學生這學期讀了什麼,無法完整回答

✅「讀完《背影》之後,你對『父親』這個概念的想法有沒有改變?
   如果沒有改變,說明為什麼這篇文章沒有打動你;
   如果有改變,說明改變前後的差異。(不接受「改變了,因為很感人」
   這類模糊答案,必須說清楚改變了什麼想法)」
   → 要求真實個人立場,AI 只能猜

選擇題

矯正策略(情境嵌套 + 多步驟)

❌「下列何者是比喻的修辭?
   (A)她的聲音如鈴聲般悅耳 (B)他跑得很快 ...」
   → AI 正確率接近 100%

✅ 提供一段你班上同學寫的短文(真實匿名),
   問:「下列哪個修改建議,最能保留原作者的個人風格
        同時改善修辭?」
   → AI 無法獲取班上同學的實際作品

開放探究題

矯正策略(三層鷹架移除)

設計漸進式移除 AI 可用的鷹架:

層次 1(高 AI 風險):
「說明人工智慧對教育的影響。」

層次 2(中 AI 風險):
「說明你這學期在學校使用 AI 工具的三個實際經驗,
 並分析每次使用帶來的學習幫助或學習損失。」

層次 3(低 AI 風險):
「本週課堂中,你用 AI 完成了什麼任務?
 請描述你如何判斷 AI 的回答是否可信,
 以及你做了哪些驗證或修改。
 (需要附上你和 AI 的對話截圖作為佐證)」

層次 4(極低 AI 風險):
「現在口頭說明:你剛才的答案中,哪一個判斷
 是你自己的,哪一個是 AI 幫你的?
 如果要繼續探究這個問題,你下一步會怎麼做?」

Step 4:十大抗 AI 評量設計策略

策略 1:個人化情境(Personalization)
  要求連結學生自己的真實經驗、班級事件、在地場景
  「你在[具體地點/時間/事件]中…」

策略 2:過程文件化(Process Documentation)
  不只評成品,評思考演進過程
  要求:草稿 + 修改紀錄 + 反思說明

策略 3:本地脈絡(Local Context)
  使用只有本班/本校學生知道的資料
  「根據我們校慶活動的觀察…」「以本班前測數據…」

策略 4:即時性(Immediacy)
  增加口頭說明、現場展示的要求
  書面完成後:「請準備 2 分鐘口頭解釋你的推理過程」

策略 5:元認知要求(Metacognition)
  要求學生說明自己的思考過程,而不只是結果
  「你是如何得出這個結論的?遇到什麼困難?如何解決?」

策略 6:真實讀者(Real Audience)
  讓學生為真實的對象寫作(同學/家長/社區/公開)
  不是只為了交給老師

策略 7:整合式任務(Integrated Task)
  整合多個課程的知識,AI 難以整合特定課程脈絡
  「連結本學期的三個主題,設計一個解決方案…」

策略 8:不完美刻意設計(Strategic Imperfection)
  提供有錯誤的範本,要求學生找出並改正
  「以下是一位同學的作品,請找出3個問題…」

策略 9:選擇與說明(Choice + Justification)
  讓學生選擇,並要求說明選擇理由
  「以下三種格式任選一種,並說明你選擇它的原因」

策略 10:多輪修改(Iterative Revision)
  不接受一次性提交,要求根據回饋修改
  第一版 → 教師/同儕回饋 → 第二版 → 說明改了什麼

Step 5:生成矯正報告

python scripts/generate_anti_ai_report.py \
  --assessment_text "[評量文字,或從上傳文件解析]" \
  --purpose "[diagnostic/formative/summative]" \
  --grade "[年級]" \
  --context "[classroom/homework/online]" \
  --core_objective "[不可犧牲的學習目標]" \
  --output "/mnt/user-data/outputs/抗AI評量矯正報告.docx"

Step 6:矯正報告結構

文件架構(.docx)

封面
  任務概述 + 評量目的 + 概念對齊確認結果

第一部分:AI 可答性全面掃描
  ┌─────────────────────────────────────────┐
  │ 題目 | AI 風險 | 五維得分 | 主要弱點    │
  │ #1   | 🔴極高  | 4分/20   | 無個人情境  │
  │ #2   | 🟠高    | 8分/20   | 無過程要求  │
  │ #3   | 🟢低    | 16分/20  | 有本地脈絡  │
  └─────────────────────────────────────────┘
  整體評估:{X} 題高風險 / {X} 題中風險 / {X} 題低風險

第二部分:逐題矯正方案(核心)
  針對每一道 🔴🟠 題目:
  [原題]
  ✗ AI 弱點分析:{具體說明 AI 如何輕易作答}
  ✓ 矯正原則:{使用了哪幾項抗 AI 策略}
  [矯正後題目](完整改寫,可直接使用)
  [對比說明]:{修改前後 AI 可答性分數對比}

第三部分:保留原題的說明
  針對 🟢 題目:說明為什麼這題不需要修改

第四部分:執行建議
  ├── 立即可做:{不改題目,只改收作業方式}
  ├── 短期改善:{題目微調建議}
  └── 長期設計:{評量架構的根本轉型建議}

附錄:抗 AI 評量設計參考手冊
  (十大策略說明 + 適用年級 + 實施難度)

Step 7:執行注意事項

矯正的邊界

  • 保持學習目標:矯正是手段,不是目的 絕不因為「更難讓 AI 作答」而犧牲重要的學習目標
  • 考量實施可行性:建議有「容易實施」到「需要改革」的分級
  • 避免懲罰性設計:目的不是讓學生痛苦,是讓學習更真實

關於學生使用 AI 的立場

本工具的設計立場:

  • 承認 AI 工具是現實,不是要消滅學生使用 AI
  • 目標是設計讓學生「用了 AI 也還要自己思考」的評量
  • 好的評量設計,AI 是工具而非替代品

MCP 連接器

Claude Code / Claude.ai(若相關 MCP 已連接)

WebSearch:
  搜尋最新抗 AI 評量設計研究
  搜尋同類型評量的優秀範例
  關鍵詞:AI-resistant assessment, authentic assessment 2024

Canva MCP(選用):
  若使用者要求「做一份給學生的評量說明海報」
  → 呼叫 Canva 生成視覺化版本

Google Drive(選用):
  上傳矯正報告到教師的雲端備份

其他平台

WebSearch 為主要工具,其餘功能不可用時輸出本地文件。

Related skills
Installs
13
GitHub Stars
5
First Seen
Apr 10, 2026