一、資料來源
二、CBA 等級通過率分析
2.1 為什麼 CBA 能預測難度?
1
假設:南一 CBA 將歷屆會考每題標註為 C(基礎)/ B(中等)/ A(進階)。如果這個分級有效,那麼同等級的題目應該有相似的通過率。
2
驗證:收集 103-114 年同時有 CBA 標註和通過率的題目,統計各等級的通過率分布。
3
結論:三個等級的通過率確實有明顯分層(C ≈ 80% > B ≈ 63% > A ≈ 43%),且中位數穩定。這證實 CBA 分級具有預測力。
三、難度預測模型推導
3.1 第一層:CBA 加權基礎分
1
直覺:一份考卷的整體通過率,應該近似於「每題通過率的平均」。而我們不知道每題的通過率(還沒考),但知道每題的 CBA 等級。
2
代換:用各等級的歷年中位通過率取代未知的個題通過率。
CBA 基礎分 = (nC × 80 + nB × 63 + nA × 43) ÷ N
其中 nC, nB, nA = 該年 C/B/A 題數,N = 有 CBA 標註的總題數
權重 80/63/43 = 各等級歷年通過率中位數(非擬合,直接觀察值)
權重 80/63/43 = 各等級歷年通過率中位數(非擬合,直接觀察值)
3
問題:單獨使用 CBA 基礎分,103 年預測 61.5% 但實際只有 52.0%(差 9.5%)。因為早期出題比近期難。
3.2 第二層:時間趨勢修正
1
觀察:103→113 年通過率從 52% 升到 63%,但 CBA 配比並沒有系統性地變「更簡單」。
2
假說:有「非 CBA」因素在逐年推升通過率(出題措辭白話化、圖表更清楚、計算量下降、適性揚才政策)。
3
方法:定義殘差 = 實際通過率 - CBA 基礎分,對殘差做線性迴歸。
殘差 = α + β × (年份 - 103)
4
完整公式:
預測通過率 = CBA 基礎分 + α + β × (年份 - 103)
3.3 模型選擇:四種方案比較
我們測試了四種不同訓練範圍,選出最佳方案:
| 模型 | 訓練集 | 訓練MAE | 外推MAE | 115預測 | 選用 |
|---|---|---|---|---|---|
| A | 103-113(全11年) | 2.05% | — | 64.3% | |
| B | 108-113(近6年) | 1.51% | 3.71% | 61.5% | |
| C | 106-113(近8年) | 1.42% | 4.19% | 62.4% | ✅ |
| D | 108-113(純CBA) | 1.63% | — | 60.5% |
模型 C 訓練 MAE 最低(1.42%),β=0.47%/年合理,115 預測落在歷年範圍內。 模型 A 的 β 被 103-104 年拉高,外推偏高;模型 B 的 β 太小。
3.4 模型驗證(103-113 年回測)
3.5 交叉驗證(Leave-One-Out,訓練集內)
在訓練集(106-113)中,每次留出一年,用其他 7 年擬合後預測該年:
四、章節分配模型
4.1 三維評分法
F
頻率 = 11 年平均出題數。反映知識點的絕對重要性。
C
一致性 = 出現在幾成的年份。區分「穩定每年出 1 題」vs「偶爾爆出 3 題」。
R
近期趨勢 = 指數衰減加權出題數(λ=0.8)。113 年權重 1.0,112 年 0.8,111 年 0.64...越近期的出題模式越有預測力。
綜合分數 = 0.4 × F + 0.3 × C + 0.3 × R
4.2 知識點分類與排名
4.3 輪考偵測
以下知識點歷年有出但近期缺席,「回歸均值」機率偏高:
五、115 年預測結果
5.1 考卷結構與難度
5.2 預測出題章節
5.3 各冊出題預測
六、方法論與限制
為什麼用中位數而非 OLS 擬合權重?
OLS 擬合 3 個權重只用 11 個數據點,自由度不足(df=8)。且 fC+fB+fA ≈ 1 存在近完全共線性,導致估計不穩定。直接用各等級的經驗中位通過率作為固定權重,物理意義明確且可解釋。
R² = 0.44 代表模型不好嗎?
R² = 0.44 代表 CBA 配比 + 時間趨勢解釋了 44% 的年度難度變異。剩餘 56% 可能來自:(1) 個別題目的措辭難度 (2) 出題者個人風格 (3) CBA 標註的主觀偏差 (4) 年度樣本波動。以只有 2 個預測因子來說,MAE 2% 已是可接受的精度。
免責聲明
- 本分析基於歷史數據統計推論,不保證 115 年實際出題符合預測
- 教育部可能調整考試制度(題型、題數、計分方式)
- CBA 分級是南一出版社的判定,非官方標準
- 時間趨勢假設為線性,實際可能趨於平緩