tw-edu-anti-ai-assessment
Installation
SKILL.md
抗 AI 評量矯正系統 v1.0
核心立場
「目標不是讓學生無法使用 AI,而是讓評量能真正測到學生的思考。 好的評量設計本來就不怕 AI——因為它測的是 AI 無法代替的能力。」
Step 0:讀取必要文件
../../tw_edu_concept_alignment.md— 概念對齊協議(必讀)../../tw_edu_grade_adapter.md— 年級適應系統../../tw_edu_guided_collection.md— 引導式收集框架references/anti_ai_strategies.md— 抗 AI 策略庫references/ai_vulnerability_rubric.md— AI 可答性評估規準/mnt/skills/public/docx/SKILL.md— Word 文件生成
Step 1:概念對齊(執行任何工作前必做)
讀取 tw_edu_concept_alignment.md 的完整流程後執行:
鏡像反射
「我理解您想要的是:
分析您的評量,找出可以被 AI 輕易完成的題目,
並在保持相同學習目標的前提下,提供改良版本。
在我開始之前,請幫我確認以下資訊:」
概念對齊核心問題(評量矯正專用)
A. 「這份評量的目的是什麼?
診斷(了解學習落差)/ 形成(課堂即時回饋)/ 總結(成績評定)」
B. 「您最擔心學生用 AI 作弊的是哪個部分?
(寫作類 / 選擇題 / 問答題 / 作業作品 / 全部)」
C. 「學生完成這份評量的情境是什麼?
課堂現場(可控)/ 回家作業(開放環境)/ 線上測驗(混合)」
D. 「您最不願意犧牲的學習目標是什麼?
(確保改良後仍測到這個能力)」
對齊確認卡
╔═══════════ 抗 AI 評量矯正 — 概念對齊確認 ═══════════╗
📌 任務:分析並矯正評量的 AI 可答性
🎯 評量目的:{診斷/形成/總結}
👤 目標學生:{年級} / 作答情境:{課堂/回家/線上}
⚠️ 最高風險區:{使用者指出的最擔心部分}
🔒 不可犧牲的目標:{核心學習能力}
📄 我將分析:{題目數量}
確認後我開始逐題分析。
╚════════════════════════════════════════════════════════╝
Step 2:AI 可答性分析框架
五維度評估矩陣
對每一道題目,從以下五個維度評估 AI 可答性(0-4 分,共 20 分):
維度 1:情境特殊性(Context Specificity)
0 = 通用問題,AI 能直接回答(「什麼是比喻法?」)
1 = 有輕微情境,AI 容易改編
2 = 需要課文/教師提供的特定情境
3 = 需要學生個人經驗或本地知識
4 = 完全個人化,AI 不知道學生的真實情況
維度 2:輸出獨特性(Output Uniqueness)
0 = 有標準答案,AI 準確率極高
1 = 有範圍答案,AI 可猜測
2 = 需要特定文本或數據作答
3 = 需要個人觀點或創意(但 AI 可偽造)
4 = 需要真實的個人敘事或在地知識
維度 3:過程可見性(Process Visibility)
0 = 只要結果,無需過程(AI 完全適合)
1 = 要求說明但不嚴格
2 = 要求詳細推理過程
3 = 要求展示思考演進(草稿/修改痕跡)
4 = 要求口頭說明或現場展示
維度 4:時間與即時性(Temporal Immediacy)
0 = 課後無時間限制(AI 幫助最大)
1 = 有時間限制但可在家完成
2 = 短時間課堂任務
3 = 即時課堂口頭回應
4 = 現場實作或觀察
維度 5:整合複雜度(Integration Complexity)
0 = 單一知識點,AI 容易整合
1 = 2 個概念整合
2 = 跨章節/跨課知識整合
3 = 需整合個人經驗 + 課程知識
4 = 需整合真實在地情境 + 多課程知識
AI 可答性總分判定
總分 0-5 | critical 極高風險:AI 可以幾乎完美作答
總分 6-10 | high 高風險:AI 能輕易生成合格答案
總分 11-14 | medium 中度風險:AI 能生成,但品質有限
總分 15-18 | low 低風險:AI 答案明顯不足
總分 19-20 | minimal 極低風險:AI 基本無法有效代答
結構化評分輸出(JSON)
完成五維度評估後,輸出以下 JSON 供後續處理與比較:
{
"item_id": "Q1",
"overall_risk": "high",
"total_score": 8,
"dimensions": {
"context_specificity": 2,
"output_uniqueness": 1,
"process_visibility": 2,
"temporal_immediacy": 2,
"integration_complexity": 1
},
"main_weakness": "無個人情境,AI 可套用通用模板",
"recommended_strategies": [1, 2, 6],
"corrected_score_estimate": 15
}
整批評量完成後輸出摘要 JSON:
{
"summary": {
"total_items": 10,
"critical": 2,
"high": 3,
"medium": 3,
"low": 2,
"avg_score": 9.4,
"overall_risk": "high"
},
"items": [
{"item_id": "Q1", "overall_risk": "high", "total_score": 8},
{"item_id": "Q2", "overall_risk": "critical","total_score": 4}
]
}
Step 3:各題型 AI 弱點與矯正策略
寫作類(AI 風險最高)
原題問題分析
高風險特徵:
□ 命題無個人情境(「寫一篇關於友誼的文章」)
□ 格式要求單一(「寫 300 字作文」)
□ 無真實讀者(只有教師閱讀)
□ 無真實目的(只為了交作業)
□ 無過程要求(只看最終成品)
矯正策略(RAFT 框架 + 過程要求)
R = Role(角色設定):學生扮演特定角色
A = Audience(真實讀者):有真實對象
F = Format(格式):非傳統作文格式
T = Topic(個人化主題):連結學生真實經驗
矯正前:「以『友誼』為題,寫 300 字作文」
矯正後:
「想像你是班刊的主編,本期主題是『那個讓你想到就笑的朋友』。
請寫一篇 250 字的人物特寫給全班同學看,
要求:
① 至少描述一個你親眼見到的具體場景(時間/地點/發生什麼)
② 說明這個朋友如何影響了你的某個習慣或想法
③ 結尾用一句話呈現你想對這位朋友說但從來沒說的話
過程要求:繳交時附上 50 字以內的「本人聲明」,
說明你寫的是真實的人和真實的場景。」
AI 可答性分析:
原題:5 分(極高風險)→ 矯正後:16 分(低風險)
關鍵改變:個人化情境 + 真實讀者 + 過程聲明
問答/簡答類
矯正策略(SOLO + 鷹架移除)
高風險寫法 → 低風險寫法:
❌「說明《背影》這篇文章的主題」
AI 可以完美作答
✅「在《背影》中,朱自清寫父親買橘子這個動作,
你認為這和你上學期讀過的哪篇文章,在表達情感的方式上
最不一樣?請用兩篇文章的具體句子比較說明。(100 字以內)」
→ AI 不知道學生這學期讀了什麼,無法完整回答
✅「讀完《背影》之後,你對『父親』這個概念的想法有沒有改變?
如果沒有改變,說明為什麼這篇文章沒有打動你;
如果有改變,說明改變前後的差異。(不接受「改變了,因為很感人」
這類模糊答案,必須說清楚改變了什麼想法)」
→ 要求真實個人立場,AI 只能猜
選擇題
矯正策略(情境嵌套 + 多步驟)
❌「下列何者是比喻的修辭?
(A)她的聲音如鈴聲般悅耳 (B)他跑得很快 ...」
→ AI 正確率接近 100%
✅ 提供一段你班上同學寫的短文(真實匿名),
問:「下列哪個修改建議,最能保留原作者的個人風格
同時改善修辭?」
→ AI 無法獲取班上同學的實際作品
開放探究題
矯正策略(三層鷹架移除)
設計漸進式移除 AI 可用的鷹架:
層次 1(高 AI 風險):
「說明人工智慧對教育的影響。」
層次 2(中 AI 風險):
「說明你這學期在學校使用 AI 工具的三個實際經驗,
並分析每次使用帶來的學習幫助或學習損失。」
層次 3(低 AI 風險):
「本週課堂中,你用 AI 完成了什麼任務?
請描述你如何判斷 AI 的回答是否可信,
以及你做了哪些驗證或修改。
(需要附上你和 AI 的對話截圖作為佐證)」
層次 4(極低 AI 風險):
「現在口頭說明:你剛才的答案中,哪一個判斷
是你自己的,哪一個是 AI 幫你的?
如果要繼續探究這個問題,你下一步會怎麼做?」
Step 4:十大抗 AI 評量設計策略
策略 1:個人化情境(Personalization)
要求連結學生自己的真實經驗、班級事件、在地場景
「你在[具體地點/時間/事件]中…」
策略 2:過程文件化(Process Documentation)
不只評成品,評思考演進過程
要求:草稿 + 修改紀錄 + 反思說明
策略 3:本地脈絡(Local Context)
使用只有本班/本校學生知道的資料
「根據我們校慶活動的觀察…」「以本班前測數據…」
策略 4:即時性(Immediacy)
增加口頭說明、現場展示的要求
書面完成後:「請準備 2 分鐘口頭解釋你的推理過程」
策略 5:元認知要求(Metacognition)
要求學生說明自己的思考過程,而不只是結果
「你是如何得出這個結論的?遇到什麼困難?如何解決?」
策略 6:真實讀者(Real Audience)
讓學生為真實的對象寫作(同學/家長/社區/公開)
不是只為了交給老師
策略 7:整合式任務(Integrated Task)
整合多個課程的知識,AI 難以整合特定課程脈絡
「連結本學期的三個主題,設計一個解決方案…」
策略 8:不完美刻意設計(Strategic Imperfection)
提供有錯誤的範本,要求學生找出並改正
「以下是一位同學的作品,請找出3個問題…」
策略 9:選擇與說明(Choice + Justification)
讓學生選擇,並要求說明選擇理由
「以下三種格式任選一種,並說明你選擇它的原因」
策略 10:多輪修改(Iterative Revision)
不接受一次性提交,要求根據回饋修改
第一版 → 教師/同儕回饋 → 第二版 → 說明改了什麼
Step 5:生成矯正報告
python scripts/generate_anti_ai_report.py \
--assessment_text "[評量文字,或從上傳文件解析]" \
--purpose "[diagnostic/formative/summative]" \
--grade "[年級]" \
--context "[classroom/homework/online]" \
--core_objective "[不可犧牲的學習目標]" \
--output "/mnt/user-data/outputs/抗AI評量矯正報告.docx"
Step 6:矯正報告結構
文件架構(.docx)
封面
任務概述 + 評量目的 + 概念對齊確認結果
第一部分:AI 可答性全面掃描
┌─────────────────────────────────────────┐
│ 題目 | AI 風險 | 五維得分 | 主要弱點 │
│ #1 | 🔴極高 | 4分/20 | 無個人情境 │
│ #2 | 🟠高 | 8分/20 | 無過程要求 │
│ #3 | 🟢低 | 16分/20 | 有本地脈絡 │
└─────────────────────────────────────────┘
整體評估:{X} 題高風險 / {X} 題中風險 / {X} 題低風險
第二部分:逐題矯正方案(核心)
針對每一道 🔴🟠 題目:
[原題]
✗ AI 弱點分析:{具體說明 AI 如何輕易作答}
✓ 矯正原則:{使用了哪幾項抗 AI 策略}
[矯正後題目](完整改寫,可直接使用)
[對比說明]:{修改前後 AI 可答性分數對比}
第三部分:保留原題的說明
針對 🟢 題目:說明為什麼這題不需要修改
第四部分:執行建議
├── 立即可做:{不改題目,只改收作業方式}
├── 短期改善:{題目微調建議}
└── 長期設計:{評量架構的根本轉型建議}
附錄:抗 AI 評量設計參考手冊
(十大策略說明 + 適用年級 + 實施難度)
Step 7:執行注意事項
矯正的邊界
- 保持學習目標:矯正是手段,不是目的 絕不因為「更難讓 AI 作答」而犧牲重要的學習目標
- 考量實施可行性:建議有「容易實施」到「需要改革」的分級
- 避免懲罰性設計:目的不是讓學生痛苦,是讓學習更真實
關於學生使用 AI 的立場
本工具的設計立場:
- 承認 AI 工具是現實,不是要消滅學生使用 AI
- 目標是設計讓學生「用了 AI 也還要自己思考」的評量
- 好的評量設計,AI 是工具而非替代品
MCP 連接器
Claude Code / Claude.ai(若相關 MCP 已連接)
WebSearch:
搜尋最新抗 AI 評量設計研究
搜尋同類型評量的優秀範例
關鍵詞:AI-resistant assessment, authentic assessment 2024
Canva MCP(選用):
若使用者要求「做一份給學生的評量說明海報」
→ 呼叫 Canva 生成視覺化版本
Google Drive(選用):
上傳矯正報告到教師的雲端備份
其他平台
WebSearch 為主要工具,其餘功能不可用時輸出本地文件。
Related skills