📚 IPAS AI 中級 — 衝刺複習主檔(v3)

考試日 2026-05-23 · 全範圍重點 + 共通命題策略

IPAS AI 應用規劃師(中級) 衝刺複習主檔

考試日期:2026-05-23 科目編碼:L21 / L22 / L23 版本:v3(2026-05-02 更新,新增三份考試總表 + 初級全文講義作為觀念交叉檢核) 資料來源: - 三科官方學習指引 PDF(科一 168 頁、科二 182 頁、科三 223 頁) - AI 應用規劃師能力鑑定 評鑑內容範圍參考(115.02 版) - 114 年第二梯次中級 — 三科公告試題各 50 題,共 150 題 - 115 年第一次 / 114 年第四梯次初級 — 第一科 + 第二科公告試題(共 4 份,作為下游知識邊界對照) - 學習指引勘誤表(1150410) - 【v3 新增】機器學習分類總表(8 大分類角度) - 【v3 新增】避免過擬合彙整(6 大面向對策表) - 【v3 新增】降維方法考試比較總表(10 種降維技術) - 【v3 新增】iPAS 初級 AI 規劃師證照班全文講義(543 頁;補強 Bias-Variance、自治系統、RAG 比喻、CoT)


0. 使用說明

本檔依使用者要求拆為五大區塊 + 三項輔助章節:

  1. 必背專有名詞清單(三科分列,可口頭解釋)
  2. 必須深度理解的核心知識點
  3. 考試重點(已交叉比對 150 題中級公告試題)
  4. 三科互動式情境/思考題(另以 HTML Artifact 交付,共 90 題)
  5. 三科知識重點總表(衝刺藍圖)
  6. 七天衝刺計畫(5/16–5/22)
  7. (v2 新增)三科共通命題策略
  8. 來源備註

來源分級:全文除特別註記外,皆 L1。 v2 更新章節以「【v2 補強】」標示。


1. 必背專有名詞清單(交付物 1)

1.1 科目一:人工智慧技術應用規劃(L21)

NLP(自然語言處理)

CV(電腦視覺)

生成式 AI

多模態 AI

AI 導入評估規劃

AI 部署

【v2 補強】科一新增專有名詞(來自中級科一公告試題)


1.2 科目二:大數據處理分析與應用(L22)

機率統計基礎

大數據處理技術

大數據分析方法與工具

大數據在 AI 應用 / 隱私

【v2 補強】科二新增專有名詞(來自中級科二公告試題)


1.3 科目三:機器學習技術與應用(L23)

機器學習基礎數學

機器學習與深度學習

機器學習建模與參數調校

機器學習治理

【v3 補強】跨科共通名詞(來自三份考試總表 + 初級講義)


2. 必須深度理解的核心知識點(交付物 2)

這些不是名詞解釋,而是「考題會以情境包裝,要你判斷選用、解釋差異、辨識錯誤」的內容。準備時必須能講出原理、適用條件、典型誤用。

2.1 三科共通主軸

  1. 鑑別式 vs 生成式:目標(決策邊界 vs 資料分佈)、輸出(類別/數值 vs 新樣本)、模型代表、訓練方式差異。
  2. 過擬合的成因與所有對策:模型過複雜 / 資料過少 / 訓練過長 → L1/L2、Dropout、Early Stopping、資料增強、簡化模型、交叉驗證、Batch Norm。重點:擴增輸入特徵變數會增加複雜度,不屬於降低複雜度的策略(114 年第三科第 26 題正是此題)。
  3. 偏差–變異數權衡:欠擬合(高偏差)vs 過擬合(高變異數),如何透過模型容量與正則化取捨。
  4. 資料/概念/模型漂移:三者差異與 PSI / KS / KL 等偵測法。

2.2 科目一:必須深度理解

  1. NLP 四階段演進邏輯:Rule-based → 統計(N-gram、HMM、CRF)→ 深度學習(RNN/LSTM/GRU)→ Pre-trained(Transformer 系)。每階段「解決前一階段什麼痛點」「但仍有什麼限制」。
  2. Transformer 為何能取代 RNN:Self-Attention 捕捉長距離依賴 + 全平行架構 + Positional Encoding + Encoder-Decoder。Multi-head 的目的:從「不同表示子空間同時捕捉多樣化關聯」(114 年第三科第 21 題)。
  3. BERT vs GPT:雙向 vs 單向、MLM 適合理解任務 vs 自迴歸適合生成任務。
  4. CV 任務四階層差異:分類(整張圖貼一個標籤)→ 物件偵測(框 + 類別)→ 語意分割(像素類別,不分實體)→ 實例分割(像素類別 + 實體 ID)。
  5. CNN 相對全連接神經網路的優勢:區域感知(Local Receptive Field)+ 參數共享 → 大幅降低參數量與計算複雜度(114 年第三科第 6 題)。第一層卷積層負責「自動提取局部特徵」(第 5 題)。
  6. 生成式 AI 風險治理:幻覺、版權、深偽、偏見放大、輸出不可控 → 對應對策(RLHF、紅隊、Alignment、規範)。
  7. AI 導入評估「三層」:業務需求(As-Is/To-Be、KPI)→ 技術可行性(資料品質、IT 能力、適配性)→ 成本效益(ROI、NPV、Payback)。POC 必備條件:範圍清晰、可控、具代表性、利害關係人支持。
  8. GDPR 七大權利(Art.15、16、17、18、20、22、6/7),特別是反對自動化決策權(Art.22)。
  9. 委外 vs 內部 vs 商業服務三種導入模式的優缺點與適用情境。
  10. MLOps 部署模式選擇:Batch / Real-time / Edge,以及對應的監控與版本管理。
  11. 【v2】RAG 檢索品質:檢索階段最大挑戰是「向量檢索結果僅語意相似但與查詢意圖不符」(科一 17)。
  12. 【v2】Attention Collapse 對策:對注意力權重施加稀疏化約束(科一 18),非加噪或換激活。
  13. 【v2】低資源語言:Back-Translation 生成偽平行語料,優於僅擴大模型(科一 19)。
  14. 【v2】GAN Mode Collapse:WGAN(Wasserstein 損失)為主流解法(科一 20)。
  15. 【v2】多模態缺失:訓練具「模態缺失感知能力」的模型最有效,優於零向量填充或捨棄樣本(科一 21)。
  16. 【v2】資料漂移偵測:KL Divergence、PSI 為兩大主流量化指標(科一 22、32、46)。
  17. 【v2】漸進式部署 Phased Rollout:從單一專科/單病房逐步擴展,優於夜班或全院同步(科一 23)。
  18. 【v2】對抗性攻擊解法:對抗樣本訓練(In-model)、規則引擎(Post-hoc)、輸入過濾(Pre-hoc)為三層;網路防火牆「不」針對模型脆弱性(科一 24)。
  19. 【v2】生成式 AI 著作權對策:訓練資料篩選與授權驗證為「源頭」,優於相似度比對、差分隱私、浮水印(科一 25)。
  20. 【v2】不可否認性:加密 Hash + 數位簽章,確保推論輸入/輸出可法務追蹤(科一 30)。
  21. 【v2】高吞吐 AI 服務:容器化 + 水平擴展 + Auto Scaling,優於垂直擴展或限制併發(科一 31)。
  22. 【v2】模型監控最具預測力指標:PSI(輸入分佈穩定度)優於系統 CPU、回應時間、置信度(科一 32)。
  23. 【v2】K-fold 與超參同步調校 → 資料洩漏:測試摺資料間接參與選擇,造成過度樂觀偏差(科一 41)。

2.3 科目二:必須深度理解

  1. 集中趨勢三均數的選用:算術(對稱)、幾何(乘積/成長率)、調和(速率/效率)。中位數對抗極端值。
  2. 箱形圖的離群值定義:Q1−1.5×IQR / Q3+1.5×IQR。注意「上鬚」不等於資料最大值。
  3. 偏度與峰度:右偏(平均>中位數)、左偏(平均<中位數);Pearson 峰度標準=3。
  4. 常態分佈與中央極限定理:當樣本量足夠大,獨立同分佈樣本的均值會趨近常態。注意:不是「任何資料」都會呈現常態(這是常見誤導陳述)。
  5. 指數分佈無記憶性:用於等待時間建模。
  6. PMF vs PDF:離散用 PMF、連續用 PDF;PDF 在某點「值」非機率,需積分得區間機率。
  7. 點估計 vs 區間估計;95% CI 的正確解讀:不是「真實參數有 95% 機率落在此區間」,而是「重複抽樣時約 95% 的區間會涵蓋真實參數」。
  8. 假設檢定五步驟:H₀/H₁ → 方法 → α → 統計量+p 值 → 決策。p 值膨脹(大樣本下顯著性過敏)、需配合效果量。
  9. 型一 vs 型二錯誤:α=誤拒(誤判有差);β=漏判(誤判無差);Power = 1−β。
  10. 檢定方法配對:單樣本 t、獨立樣本 t(+Welch)、配對 t、ANOVA(三組以上 + Tukey)、卡方獨立性 / 適配度、皮爾森 r、斯皮爾曼 ρ、Mann-Whitney U、Kruskal-Wallis、Friedman。
  11. Bonferroni 校正多重比較。
  12. 5V:Volume、Variety、Velocity、Veracity、Value 各自帶來什麼挑戰與對策。
  13. 資料品質五類問題:缺失(MCAR/MAR/MNAR)、異常、重複、一致性、邏輯。
  14. 資料湖 vs 資料倉儲 vs 資料湖倉:Schema-on-Read vs Schema-on-Write、彈性 vs 結構治理。
  15. 強一致性 vs 最終一致性;CAP 取捨。
  16. Zero Trust 四原則:最小權限、JIT Access、持續驗證、Microsegmentation。
  17. 特徵縮放對距離型/梯度型模型必要(KNN、SVM、線性迴歸、神經網路)(114 年第三科第 9 題)。
  18. 編碼策略選擇:類別少且無序 → One-hot;有序 → Ordinal;高基數 → Target Encoding(注意資料洩漏)。
  19. 分散式運算典範:MapReduce(Hadoop)→ Spark(記憶體 RDD/DataFrame)→ Flink(低延遲流式)→ Beam(統一抽象)。
  20. 同態加密 vs 安全多方計算 vs 差分隱私 vs 聯邦學習:核心特性與適用情境。
  21. 【v2】Z-score 異常值判斷:|Z| ≥ 3 通常視為異常;Z=2 表離平均 2 個標準差(科二 1、16)。
  22. 【v2】CDF = PDF 積分(科二 4);PMF 在離散值上的點機率與 PDF 「值」非機率的差異。
  23. 【v2】Label Encoding 在無序類別會引入虛假順序;在 Gradient Boosting / Random Forest 等樹模型中影響特徵重要性偏誤(科二 5、17)。
  24. 【v2】Standardization 「不」會壓到 [0,1];Min-Max 才會。常見題幹陷阱(科二 6)。
  25. 【v2】ACID 四特性:Atomicity = 全成功或全 Rollback(科二 7、18);Consistency 規則完整性;Isolation 並行隔離;Durability 持久。
  26. 【v2】Robust Scaling:用中位數與 IQR,適合含極端值資料(科二 9)。
  27. 【v2】PCA 前必須標準化:否則大尺度欄位主導第一主成分(科二 29 的金額 vs 年齡)。
  28. 【v2】二項分佈常態近似條件:np > 5 且 n(1−p) > 5,而非「樣本大就近似」(科二 31)。
  29. 【v2】分位數迴歸:不依賴常態假設,聚焦尾部極端風險(金融、醫療常用,科二 33)。
  30. 【v2】Box-Cox 轉換:處理右偏 Y 與隨 X 增加的異質變異(科二 36)。
  31. 【v2】SMOTE vs 隨機過採樣:SMOTE 合成新樣本,降低過擬合風險(科二 12、37)。
  32. 【v2】雙比例 Z 檢定:比較兩組良率/比例(科二 38);Stratified K-Fold 為不平衡分類的標準作法(科二 39)。
  33. 【v2】關聯規則三指標:Support 共現比例、Confidence 條件機率、Lift > 1 為正向關聯(科二 26)。
  34. 【v2】RDF 三元組與屬性圖:知識圖譜首選 RDF;互動屬性適合做為邊屬性(科二 34、35)。
  35. 【v2】高維 DBSCAN 失效:距離趨同(維度詛咒);效能可用 KD-Tree/Ball Tree 加速(科二 28、科一 48)。
  36. 【v2】偽匿名化 Pseudonymization + 輸出稽核:LLM 防止個資外洩之首選實務(科二 32)。
  37. 【v2】Tufte 數據密度原則:同圖整合多區域趨勢、顏色區分、保留輔助線(科二 21)。
  38. 【v2】熱力圖 + 相關係數矩陣:多變數關聯強度與方向視覺化首選(科二 22)。
  39. 【v2】單樣本 t 結合信賴區間判讀:若 H₀ 值落在 95% CI 內 → 無法拒絕;p > α 不代表 H₀ 為真(科二 23)。
  40. 【v2】近似分位數:在可容忍誤差內快速估算分位值,支援即時分析(科二 27)。

2.4 科目三:必須深度理解

  1. 線性代數基礎與 PCA:標準化 → 協方差矩陣 → 特徵值分解 → 取最大特徵值方向為主成分;累積解釋變異量判斷保留幾維(114 年第 35 題:λ=6,3,1 → 前兩主成分 90%,可降至 2 維)。
  2. 凸函數 vs 非凸函數:非凸導致多個局部最優解,使最佳化結果不穩定(114 年第 3 題)。
  3. L1 vs L2 vs Elastic Net:L1 產生稀疏權重(自動特徵選擇);L2 抑制權重幅度但保留全部;Elastic Net 結合兩者優點(114 年第 2、32 題)。
  4. 優化器特性:SGD(基本)、Momentum(加慣性)、Adagrad(自適應、稀疏特徵)、RMSprop(穩定、適 RNN)、Adam(動量+RMSprop,內建動量機制)(114 年第 17 題)。
  5. 梯度消失 / 爆炸:LSTM/GRU/ResNet/BatchNorm/梯度裁剪/ReLU/合適初始化。
  6. 激活函數:線性 vs 非線性;線性多層 = 單層線性。Sigmoid 易飽和 → ReLU(114 年第 27 題:線性激活停滯改用 ReLU);Sigmoid 適合二元;Softmax 多類別。
  7. 損失函數對應任務:迴歸 MSE/MAE/Huber;分類 Cross-Entropy/Focal;排序 Ranking。MSE 對極端值敏感、MAE 對極端值穩健。
  8. R² 解讀:解釋變異比例;0.85 表「85% 變異可被模型解釋」(114 年第 15 題),不是準確率。
  9. F1 計算:2·P·R/(P+R)。P=0.8、R=0.6 → F1=0.686(114 年第 16 題)。
  10. DBSCAN:Core Point(ε 內 ≥ MinPts)、Border Point、Noise Point;非核心 + 不被任何核心點 ε 覆蓋 + 無密度可達 → Noise(114 年第 4 題)。
  11. CNN 設計理由(同上 2.2 第 5 點)。
  12. LSTM:適合序列/時間依賴任務(114 年第 7 題:電力需求趨勢)。
  13. 資訊增益用於決策樹(114 年第 8 題;非線性模型用 L1、非神經網路、非 SVM 核函數)。
  14. AutoML 適用情境:缺乏專職資料科學家、需快速比較多模型、低客製化(114 年第 10 題)。
  15. Random Search vs Grid Search:RS 在「高維參數空間」更有效率(114 年第 11 題)。
  16. 學習率:控制權重更新速度,過大發散、過小停滯(114 年第 12 題)。
  17. 偏見類型分辨:標籤偏差(人工標註主觀)、特徵偏差、抽樣偏差(訓練樣本族群不代表整體;114 年第 28 題:只用活躍顧客→新註冊低消費預測差)、確認偏差。
  18. 可解釋性:醫療診斷、金融風控、招聘等高風險場景必備(114 年第 14 題)。
  19. XGBoost vs GBDT:正則化抑制過擬合、缺失值自動處理、並行化訓練(114 年第 18 題)。
  20. 不平衡資料處理:SMOTE 過採樣、欠採樣、類別權重、Focal Loss、Stratified;不可用 Accuracy(114 年第 19 題)。
  21. 互動特徵:兩特徵相乘 / 交互組合(114 年第 20 題)。
  22. 多頭注意力:不同表示子空間捕捉多樣化關聯(114 年第 21 題)。
  23. 貝氏定理應用:條件機率推論「在觀察到 X 行為下,Y 發生機率」(114 年第 22 題)。
  24. 蒙地卡羅模擬:隨機抽樣模擬不確定情境,估算分佈與風險區間(114 年第 23、41 題)。
  25. 殘差圖診斷:系統性彎曲 = 異常值或非線性違反假設(114 年第 24 題)。
  26. 信用評分卡標準流程:特徵選擇、多重共線性分析、分箱 Binning、IV 資訊值、PSI 樣本穩定性;使用生成式模型作為標準步驟(114 年第 25 題)。
  27. 時間序列 CV:Time Series CV / Rolling Window 適合非穩態環境,避免未來資訊洩漏(114 年第 29 題)。
  28. F1 在跨語言遷移失準:語言差異造成 Recall 下降(114 年第 30 題)。
  29. Early Stopping with Patience:監控驗證集,連續多輪未改善才停(114 年第 31 題)。
  30. Lasso 自動特徵選擇(114 年第 32 題)。
  31. 時間複雜度 O(1) / O(log n) / O(n) / O(n²) / O(n log n) / O(2ⁿ)(114 年第 33 題:兩兩比對為 O(n²))。
  32. Stratified Leave-One-Out:小樣本 + 類別不平衡(114 年第 34 題)。
  33. 同態加密:加密狀態下可進行數值運