科目三 機器學習技術與應用(L23)
L231 機器學習基礎數學
L23101 機率/統計之機器學習基礎應用
條件機率與貝氏定理
- 條件機率:P(A|B) = P(A∩B)/P(B)
- 貝氏定理:P(A|B) = P(B|A)·P(A)/P(B)
- 應用:Naïve Bayes 分類、機率推論、醫療診斷
機率分佈
- 離散
- 伯努利、二項、泊松
- 連續
- 常態、均勻、指數、卡方、t、F
- 多元常態(Multivariate Normal)
估計方法
- MLE 最大概似估計
- MAP 最大事後估計(含先驗)
- 共軛先驗
損失函數家族
- 迴歸:MSE、MAE、Huber
- 分類:Cross-Entropy、Hinge、Focal Loss
- 排序:Ranking Loss、Contrastive Loss
蒙地卡羅方法
- 隨機抽樣模擬不確定情境
- 應用:風險分析、選擇權定價、條件機率估算
L23102 線性代數之機器學習基礎應用
基本元素
- 純量(Scalar)
- 向量(Vector)
- 矩陣(Matrix)
- 張量(Tensor)
範數(Norm)
- L1 範數(絕對值總和、曼哈頓距離)
- 應用:Lasso 正則化(產生稀疏解)
- L2 範數(平方和開根號、歐幾里得距離)
- 應用:Ridge 正則化、向量長度
矩陣運算
- 加減、純量乘
- 矩陣乘法(模型核心運算)
- 轉置(Transpose)
- 逆矩陣(Inverse)/ 偽逆(Pseudo-Inverse)
- 行列式 / 跡
矩陣分解
- 特徵值分解(EVD;A = QΛQᵀ)
- 限對稱方陣
- 奇異值分解(SVD;M = UΣVᵀ)
- 任意 m×n 矩陣
- 應用:PCA、推薦系統、影像壓縮、LSA
- PCA(主成分分析)
- LDA(線性判別分析)
- NMF(非負矩陣分解)
應用情境
- 線性迴歸:y = Xθ
- 神經網路前向:z = Wx + b
- 特徵投影 / 空間壓縮
L23103 數值優化技術與方法
優化問題三元素
- 目標函數(Objective Function)
- 決策變數(權重 + 偏差)
- 約束條件
凸 vs 非凸
- 凸函數
- 唯一全域最優
- 非凸函數
- 多個局部最優
- 鞍點(Saddle Point)
- 對策:Momentum、Adam、隨機重啟
梯度下降變體
- 批次梯度下降(Batch GD)
- 全資料、穩定、慢
- 隨機梯度下降(SGD)
- 單筆、快、震盪大
- Mini-batch SGD(現代主流)
- 小批量、平衡
自適應優化器
- Momentum
- 加慣性,克服局部震盪
- Nesterov Accelerated Gradient
- Adagrad
- 自適應學習率(歷史梯度平方和)
- 適稀疏特徵
- 限制:學習率過度衰減
- RMSprop
- 滑動平均修正 Adagrad
- 適 RNN
- Adam(Adaptive Moment Estimation)
- 結合 Momentum + RMSprop
- 內建動量機制(高頻考點)
- AdamW
學習率排程
- Step Decay
- Cosine Annealing
- Warm-up
梯度問題
- 梯度消失:LSTM/GRU、ResNet、ReLU、合適初始化
- 梯度爆炸:Gradient Clipping(裁剪)
- 內部協變偏移 → BatchNorm / LayerNorm
L232 機器學習與深度學習
L23201 機器學習原理與技術
學習範式 8 大角度(《機器學習分類總表》)
- 學習訊號
- 監督式 Supervised
- 非監督式 Unsupervised
- 半監督式 Semi-supervised
- 自監督式 Self-supervised
- 強化式 Reinforcement
- 資料到達
- 批次學習 Batch
- 線上學習 Online
- 增量學習 Incremental
- 知識轉移
- 遷移學習 Transfer
- 多任務 Multi-task
- 元學習 Meta-learning(learning to learn)
- 終身學習 Lifelong / Continual(避免災難性遺忘)
- 標註稀少
- 主動學習 Active
- 弱監督 Weakly Supervised
- 少樣本 Few-shot
- 一樣本 One-shot
- 零樣本 Zero-shot
- 模型目的
- 判別式 Discriminative(分類邊界)
- 生成式 Generative(學分布)
- 表徵式 Representation Learning
- 模型組合
- 集成 Ensemble
- 深度 Deep Learning
- 機率式 Probabilistic(Bayesian Network、HMM)
- 隱私架構
- 聯邦 Federated
- 分散式 Distributed
- 隱私保護 Privacy-preserving
- 任務形式
- 分類、迴歸、分群、降維、異常、排序、推薦
MDP 馬可夫決策過程(強化學習)
- 元素
- Agent 代理人
- Environment 環境
- State 狀態
- Action 動作
- Reward 報酬
- Policy 策略
- V / Q 值函數
- 演算法
- Q-Learning
- SARSA
- DQN(Deep Q-Network)
- Policy Gradient
- Actor-Critic(A2C / A3C)
- PPO
Bias-Variance Tradeoff(必背)
- Bias 高 → 欠擬合(模型太簡單)
- Variance 高 → 過擬合(模型太敏感)
- 不可兼得,需取得平衡
L23202 常見機器學習演算法
監督式學習 — 迴歸
- 線性迴歸(Linear Regression)
- OLS 最小平方估計
- 評估指標
- MSE、RMSE、MAE
- R²(0.85 = 85% 變異被解釋)
- Adjusted R²
- Ridge Regression(L2)
- 抑制權重幅度
- 適多重共線性
- Lasso Regression(L1)
- 稀疏化、自動特徵選擇
- Elastic Net(L1 + L2)
- 多項式迴歸
- SVR(Support Vector Regression;ε-不敏感區)
監督式學習 — 分類
- Logistic Regression
- 伯努利假設;Sigmoid;對數勝率(Log-Odds)線性
- 多類別 → Softmax
- 評估:Accuracy、Precision、Recall、F1、ROC-AUC
- SVM(Support Vector Machine)
- 最大邊界(Margin)
- 支持向量
- 軟邊界 C
- 核函數(Kernel Trick)
- 應用:文字分類、影像分類
- 決策樹(Decision Tree)
- 分裂準則
- 基尼不純度(Gini)
- 資訊增益(Information Gain)
- 熵(Entropy)
- 演算法:CART、ID3、C4.5
- 超參數:max_depth、min_samples_split
- 剪枝:前剪枝 / 後剪枝
- KNN(K-Nearest Neighbors)
- 惰性學習
- 距離型 → 必須特徵縮放
- K 值選擇:奇數 + 交叉驗證
- 限制:維度詛咒、計算成本
- Naïve Bayes
- 條件獨立假設
- 高斯 / 多項式 / 伯努利
- Laplace 平滑(處理零機率)
- LDA / QDA(線性 / 二次判別分析)
集成式學習(Ensemble)
- Bagging(並行降變異)
- Random Forest 隨機森林
- Bootstrap + 隨機特徵
- 評估:準確率、OOB 誤差、特徵重要性
- Boosting(串行降偏差)
- AdaBoost
- GBDT(梯度提升)
- XGBoost
- 引入 L1/L2 正則
- 缺失值自動處理
- Block 結構並行化
- LightGBM
- Histogram-based
- Leaf-wise 分裂
- CatBoost
- Stacking(堆疊)
- Voting(投票)
非監督式 — 分群 / 聚類
- K-Means
- 質心(Centroid)
- 需指定 K
- 對策:手肘法(Elbow)+ Silhouette Score
- 限制:球狀群、對離群值敏感
- 階層式分群(Hierarchical Clustering)
- 凝聚式(由下而上)
- 分裂式(由上而下)
- Dendrogram 樹狀圖
- DBSCAN
- 兩超參數:ε(鄰域半徑)+ MinPts
- 點分類
- Core Point(鄰域 ≥ MinPts)
- Border Point(在 Core 鄰域內)
- Noise Point(雜訊)
- 高維失效 → 維度詛咒
- HDBSCAN
- GMM(高斯混合模型)
- EM 演算法
非監督式 — 降維
- PCA(主成分分析)
- 非監督、線性
- 找最大變異方向
- 累積解釋變異量(80% 為常見門檻)
- 必須先標準化
- LDA(線性判別分析)
- 唯一監督式降維
- 類別間距大 + 類別內距小
- ICA(獨立成分分析)
- 找彼此獨立的成分
- 應用:訊號分離、語音、腦波
- SVD(奇異值分解)
- 文字探勘、推薦系統
- Kernel PCA(非線性)
- t-SNE
- 非線性、視覺化用、不適合建模前處理
- UMAP
- 與 t-SNE 比較,速度較快
- Autoencoder(深度學習式降維)
- 線性 AE 退化為 PCA
- NMF(非負矩陣分解)
- 結果非負、易解釋
- Random Projection
關聯規則
- Apriori 演算法
- Apriori 性質(反單調性)
- FP-Growth
- 三指標
- Support 支持度(共現比例)
- Confidence 信賴度(條件機率)
- Lift 提升度(>1 為正向)
異常偵測
- Isolation Forest(孤立森林)
- 基於樹的非參數
- 高維友善
- One-Class SVM
- Autoencoder(重建誤差)
- LOF(Local Outlier Factor)
L23203 深度學習原理與框架
神經網路基礎
- 人工神經元(加權求和 + 激活)
- 感知器(Perceptron)
- 前向傳播 Forward Propagation
- 反向傳播 Backpropagation
- 連鎖律 Chain Rule
- 計算梯度 → 更新參數
激活函數
- Sigmoid(0–1,適二元;易飽和)
- Tanh(−1 至 1)
- ReLU = max(0, x)(現代主流、避免梯度消失)
- Leaky ReLU
- Softmax(多類別、輸出機率分佈)
- GELU(BERT)
過擬合對策(6 面向)
- 資料面:增加資料量、資料增強、清理
- 特徵面:特徵選擇、特徵降維
- 模型面:降低複雜度、L1/L2、剪枝、Dropout
- 訓練面:Early Stopping、BatchNorm
- 評估面:驗證集、交叉驗證、避免資料洩漏
- 集成面:Bagging、Boosting 控制
前饋網路(MLP / Feedforward)
CNN 卷積神經網路
- 元件
- Conv Layer(局部感受野 + 權重共享)
- Pooling(Max / Average)
- 全連接 + Softmax
- 關鍵特性
- Stride、Padding、Filter / Kernel、Feature Map
- 經典架構
- LeNet → AlexNet → VGG → GoogLeNet → ResNet → DenseNet → MobileNet → EfficientNet
RNN / LSTM / GRU
- RNN(循環神經網路)
- 序列資料
- 限制:梯度消失、無法平行
- LSTM(長短期記憶)
- 三門:Input / Forget / Output Gate
- Cell State 細胞狀態
- 解決長距離依賴
- GRU(LSTM 簡化版,兩門)
- BiRNN(雙向 RNN)
- 核心:Self-Attention
- Multi-head Attention(不同表示子空間)
- Positional Encoding(因 Self-Attention 對順序不變)
- Encoder-Decoder
- Residual + Layer Normalization
- 演化模型
- BERT(雙向理解)
- GPT(單向生成)
- T5(Text-to-Text)
- ViT(Vision Transformer)
- Longformer / Reformer / Performer(長序列)
生成模型四大家族
- Autoencoder(基礎重建)
- VAE(機率潛變數;訓練穩定但影像模糊)
- GAN(對抗訓練;細節銳利但 Mode Collapse)
- WGAN 用 Wasserstein 距離緩解
- Diffusion(逐步去噪;品質穩多樣性高)
框架
- TensorFlow / Keras(Google)
- PyTorch(Meta;研究主流)
- JAX
- Hugging Face Transformers
- ONNX / TensorRT / TFLite(部署)
L233 機器學習建模與參數調校
L23301 數據準備與特徵工程
缺失值處理
- 直接刪除
- 統計填補(均值 / 中位數 / 眾數)
- 預測模型填補(KNN、迴歸)
- 缺失指標編碼(新增欄位)
異常值處理
- 統計法:Z-score、IQR
- 視覺化:箱型圖、散佈圖
- 機器學習:Isolation Forest、LOF
- 處理:移除 / 截尾 / 標記保留
特徵選擇
- Filter:卡方、相關係數、資訊增益
- 快、與模型無關、忽略交互
- Wrapper:Forward / Backward Selection、RFE
- 準但慢
- Embedded:Lasso、樹特徵重要度
- 融入模型訓練
特徵衍生與聚合
- 數學特徵(對數、比值、差分)
- 互動特徵(乘積、交互組合)
- 時間特徵(年/月/日/星期/假日)
- 聚合特徵(顧客近 3 月平均)
編碼
- One-hot Encoding
- Ordinal Encoding(有序)
- Label Encoding(陷阱:無序資料引入虛假順序)
- Target Encoding(注意資料洩漏)
縮放
- Min-Max(0–1)
- Z-score(均值 0 標準差 1;不會壓到 [0,1])
- Robust Scaling(中位數 + IQR,對極端值穩健)
資料增強
- 圖像:翻轉、旋轉、裁剪、色彩
- 文字:同義字替換、隨機插入 / 刪除
- 時序:Jittering、視窗裁切
- 表格:SMOTE(合成少數類)
L23302 模型選擇與架構設計
任務 → 模型對應
- 分類
- 簡單可解釋 → Logistic、決策樹
- 邊界清晰高維小樣本 → SVM
- 複雜資料 → 神經網路、集成
- 迴歸
- 線性 → Linear Regression
- 非線性 → 樹模型、神經網路
- 非監督
- 球狀分群 → K-means
- 雜訊與形狀不規則 → DBSCAN
- 降維前處理 → PCA
- 視覺化 → t-SNE / UMAP
選擇考量
- 資料規模與品質
- 解釋性需求
- 訓練 / 推論成本
- 部署環境(雲 / 邊緣)
- 即時性需求
L23303 模型訓練、評估與驗證
資料切分
- Hold-out(訓練 / 驗證 / 測試)
- K-fold 交叉驗證
- Stratified K-fold(類別比例維持)
- LOOCV(留一)
- Stratified LOOCV(小樣本 + 不平衡)
- Time Series CV / Rolling Window(時序專用)
- Bootstrap
訓練模式
- Batch GD
- SGD
- Mini-batch SGD
分類評估指標
- Confusion Matrix(TP/FP/TN/FN)
- Accuracy = (TP+TN)/總數
- 不平衡資料禁用
- Precision = TP/(TP+FP)
- Recall = TP/(TP+FN)
- F1 = 2PR/(P+R)
- F-beta(β>1 重 Recall;β<1 重 Precision)
- ROC-AUC、PR-AUC
- Macro / Micro / Weighted F1
迴歸評估指標
- MSE、RMSE、MAE
- MAPE
- R²、Adjusted R²
聚類評估指標
- Silhouette Score
- Davies-Bouldin Index
- Calinski-Harabasz Index
偏差–變異權衡
- Bias 高 → 欠擬合
- Variance 高 → 過擬合
- 透過模型容量 + 正則化取捨
L23304 模型調整與優化
超參數
- 學習率(Learning Rate)
- 批次大小(Batch Size)
- 網路深度與寬度
- 激活函數
- 優化器
- 正則化係數
超參數搜尋
- Grid Search(全組合)
- Random Search(高維更有效率)
- Bayesian Optimization(動態調整)
- Hyperband
- AutoML(Optuna、Vertex AI)
正則化
- L1 Lasso(稀疏)
- L2 Ridge(權重縮小)
- Elastic Net(L1 + L2)
- Dropout(隨機關閉神經元)
- Batch Normalization
- Layer Normalization
- Early Stopping + Patience
- Label Smoothing
不平衡資料對策
- 過採樣(SMOTE)
- 欠採樣
- 類別權重(class_weight)
- Focal Loss
- 評估改用 Recall / F1 / PR-AUC
模型壓縮
- 剪枝(Pruning)
- 知識蒸餾(Knowledge Distillation;教師→學生)
- 量化(Quantization;FP32→INT8)
- 量化感知訓練(QAT)
- 混合精度訓練(FP16+FP32)
- 低秩分解
- 稀疏化
MLOps 工具
- MLflow、W&B(實驗追蹤)
- SageMaker、Vertex AI、Kubeflow Pipelines(流程)
- Model Registry(版本管理)
L234 機器學習治理
L23401 數據隱私、安全與合規
個資識別風險
- 直接識別資訊(PII)
- 準識別資訊
- 間接識別資訊
- 重識別風險(Re-identification)
資料分類與敏感度
- 公開 / 內部 / 機密
- 一般 / 個人 / 高度敏感
PIA 隱私影響評估
- 資料流盤點 → 風險辨識 → 影響分析 → 緩解 → 持續監督
基礎匿名化
- Masking(王○○)
- Hashing(SHA-256)
- Generalization(出生日期 → 年代)
- Suppression(隱藏)
進階 PETs
- k-匿名(K-Anonymity)
- l-多樣性
- t-接近性
- 隨機擾動(Noise Injection)
- 差分隱私(Differential Privacy)
- DP-SGD
- ε(隱私預算)
- 聯邦學習(Federated Learning)
- 不傳原始資料,僅交換模型參數
- 同態加密(Homomorphic Encryption;FHE / PHE)
- 加密狀態下可進行數值運算
- 安全多方計算(Secure Multi-party Computation, MPC)
- 數位簽章
法規遵循
- GDPR(歐盟,涵蓋全球處理 EU 個資者)
- PDPA(台灣個資法)
- CCPA(美國加州)
- HIPAA(美國醫療)
- PCI-DSS(支付卡)
合法使用依據
- 明確同意(Explicit Consent;自由、明確、可撤回)
- 契約必要
- 公共利益 / 學術研究
- 非個人資料(經匿名化)
內部治理
- AI 治理委員會
- Chief AI Officer
- Data Steward
- Data Catalog
- Model Card(模型說明書)
- 權限控管 + 稽核紀錄
L23402 演算法偏見與公平性
AI 偏見來源(資料層面)
- 抽樣偏差(Sampling Bias)
- 訓練樣本族群不代表整體
- 特徵偏差(Feature Bias)
- 變數與敏感屬性高度相關
- 標籤偏差(Label Bias)
- 人工標註主觀偏見
- 確認偏差(Confirmation Bias)
- 歷史性偏見
偏見影響
公平性指標
- Demographic Parity(群體平等率)
- 各群體獲得正向預測比例相等
- Equal Opportunity(機會平等)
- 真正例的 TPR 相等
- Equalized Odds
- TPR + FPR 都相等
- Predictive Parity
- Calibration(結果校準)
公平性工具
- IBM AI Fairness 360(AIF360)
- Microsoft Fairlearn
偏見修正三階段
- Pre-processing(資料前處理)
- 重新採樣 / 重加權
- 去除敏感特徵(注意:代理變數仍可重建)
- In-processing(訓練中)
- 對抗式去偏(Adversarial Debiasing)
- 公平性約束
- Post-processing(後處理)
- 結果門檻調整(Threshold Adjustment)
- 結果校準(Calibration)
AI 公平治理機制
- 公平性政策與標準
- 公平性指標訂定
- 持續監控
- 員工教育
- 對外透明溝通(Model Card、報告書)