科目三機器學習技術與應用(L23)

L231 機器學習基礎數學

L23101 機率/統計之機器學習基礎應用

條件機率與貝氏定理

條件機率:P(A|B) = P(A∩B)/P(B)
貝氏定理:P(A|B) = P(B|A)·P(A)/P(B)
應用:Naïve Bayes 分類、機率推論、醫療診斷

機率分佈

離散
伯努利、二項、泊松
連續
常態、均勻、指數、卡方、t、F
多元常態(Multivariate Normal)

估計方法

MLE 最大概似估計
MAP 最大事後估計(含先驗)
共軛先驗

損失函數家族

迴歸:MSE、MAE、Huber
分類:Cross-Entropy、Hinge、Focal Loss
排序:Ranking Loss、Contrastive Loss

蒙地卡羅方法

隨機抽樣模擬不確定情境
應用:風險分析、選擇權定價、條件機率估算

L23102 線性代數之機器學習基礎應用

基本元素

純量(Scalar)
向量(Vector)
矩陣(Matrix)
張量(Tensor)

範數(Norm)

L1 範數(絕對值總和、曼哈頓距離)
應用:Lasso 正則化(產生稀疏解)
L2 範數(平方和開根號、歐幾里得距離)
應用:Ridge 正則化、向量長度

矩陣運算

加減、純量乘
矩陣乘法(模型核心運算)
轉置(Transpose)
逆矩陣(Inverse)/ 偽逆(Pseudo-Inverse)
行列式 / 跡

矩陣分解

特徵值分解(EVD;A = QΛQᵀ)
限對稱方陣
奇異值分解(SVD;M = UΣVᵀ)
任意 m×n 矩陣
應用:PCA、推薦系統、影像壓縮、LSA
PCA(主成分分析)
LDA(線性判別分析)
NMF(非負矩陣分解)

應用情境

線性迴歸:y = Xθ
神經網路前向:z = Wx + b
特徵投影 / 空間壓縮

L23103 數值優化技術與方法

優化問題三元素

目標函數(Objective Function)
決策變數(權重 + 偏差)
約束條件

凸 vs 非凸

凸函數
唯一全域最優
非凸函數
多個局部最優
鞍點(Saddle Point)
對策:Momentum、Adam、隨機重啟

梯度下降變體

批次梯度下降(Batch GD)
全資料、穩定、慢
隨機梯度下降(SGD)
單筆、快、震盪大
Mini-batch SGD(現代主流)
小批量、平衡

自適應優化器

Momentum
加慣性,克服局部震盪
Nesterov Accelerated Gradient
Adagrad
自適應學習率(歷史梯度平方和)
適稀疏特徵
限制:學習率過度衰減
RMSprop
滑動平均修正 Adagrad
適 RNN
Adam(Adaptive Moment Estimation)
結合 Momentum + RMSprop
內建動量機制(高頻考點)
AdamW

學習率排程

Step Decay
Cosine Annealing
Warm-up

梯度問題

梯度消失:LSTM/GRU、ResNet、ReLU、合適初始化
梯度爆炸:Gradient Clipping(裁剪)
內部協變偏移 → BatchNorm / LayerNorm

L232 機器學習與深度學習

L23201 機器學習原理與技術

學習範式 8 大角度(《機器學習分類總表》)

學習訊號
監督式 Supervised
非監督式 Unsupervised
半監督式 Semi-supervised
自監督式 Self-supervised
強化式 Reinforcement
資料到達
批次學習 Batch
線上學習 Online
增量學習 Incremental
知識轉移
遷移學習 Transfer
多任務 Multi-task
元學習 Meta-learning(learning to learn)
終身學習 Lifelong / Continual(避免災難性遺忘)
標註稀少
主動學習 Active
弱監督 Weakly Supervised
少樣本 Few-shot
一樣本 One-shot
零樣本 Zero-shot
模型目的
判別式 Discriminative(分類邊界)
生成式 Generative(學分布)
表徵式 Representation Learning
模型組合
集成 Ensemble
深度 Deep Learning
機率式 Probabilistic(Bayesian Network、HMM)
隱私架構
聯邦 Federated
分散式 Distributed
隱私保護 Privacy-preserving
任務形式
分類、迴歸、分群、降維、異常、排序、推薦

MDP 馬可夫決策過程(強化學習)

元素
Agent 代理人
Environment 環境
State 狀態
Action 動作
Reward 報酬
Policy 策略
V / Q 值函數
演算法
Q-Learning
SARSA
DQN(Deep Q-Network)
Policy Gradient
Actor-Critic(A2C / A3C)
PPO

Bias-Variance Tradeoff(必背)

Bias 高 → 欠擬合(模型太簡單)
Variance 高 → 過擬合(模型太敏感)
不可兼得,需取得平衡

L23202 常見機器學習演算法

監督式學習 — 迴歸

線性迴歸(Linear Regression)
OLS 最小平方估計
評估指標
- MSE、RMSE、MAE
- R²(0.85 = 85% 變異被解釋)
- Adjusted R²
Ridge Regression(L2)
抑制權重幅度
適多重共線性
Lasso Regression(L1)
稀疏化、自動特徵選擇
Elastic Net(L1 + L2)
多項式迴歸
SVR(Support Vector Regression;ε-不敏感區)

監督式學習 — 分類

Logistic Regression
伯努利假設;Sigmoid;對數勝率(Log-Odds)線性
多類別 → Softmax
評估:Accuracy、Precision、Recall、F1、ROC-AUC
SVM(Support Vector Machine)
最大邊界(Margin)
支持向量
軟邊界 C
核函數(Kernel Trick)
- 線性、多項式、RBF、Sigmoid
應用:文字分類、影像分類
決策樹(Decision Tree)
分裂準則
- 基尼不純度(Gini)
- 資訊增益(Information Gain)
- 熵(Entropy)
演算法:CART、ID3、C4.5
超參數:max_depth、min_samples_split
剪枝:前剪枝 / 後剪枝
KNN(K-Nearest Neighbors)
惰性學習
距離型 → 必須特徵縮放
K 值選擇:奇數 + 交叉驗證
限制:維度詛咒、計算成本
Naïve Bayes
條件獨立假設
高斯 / 多項式 / 伯努利
Laplace 平滑(處理零機率)
LDA / QDA(線性 / 二次判別分析)

集成式學習(Ensemble)

Bagging(並行降變異)
Random Forest 隨機森林
- Bootstrap + 隨機特徵
- 評估:準確率、OOB 誤差、特徵重要性
Boosting(串行降偏差)
AdaBoost
GBDT(梯度提升)
XGBoost
- 引入 L1/L2 正則
- 缺失值自動處理
- Block 結構並行化
LightGBM
- Histogram-based
- Leaf-wise 分裂
CatBoost
Stacking(堆疊)
Voting(投票)

非監督式 — 分群 / 聚類

K-Means
質心(Centroid)
需指定 K
對策:手肘法(Elbow)+ Silhouette Score
限制:球狀群、對離群值敏感
階層式分群(Hierarchical Clustering)
凝聚式(由下而上)
分裂式(由上而下)
Dendrogram 樹狀圖
DBSCAN
兩超參數:ε(鄰域半徑)+ MinPts
點分類
- Core Point(鄰域 ≥ MinPts)
- Border Point(在 Core 鄰域內)
- Noise Point(雜訊)
高維失效 → 維度詛咒
HDBSCAN
GMM(高斯混合模型)
EM 演算法

非監督式 — 降維

PCA(主成分分析)
非監督、線性
找最大變異方向
累積解釋變異量(80% 為常見門檻)
必須先標準化
LDA(線性判別分析)
唯一監督式降維
類別間距大 + 類別內距小
ICA(獨立成分分析)
找彼此獨立的成分
應用:訊號分離、語音、腦波
SVD(奇異值分解)
文字探勘、推薦系統
Kernel PCA(非線性)
t-SNE
非線性、視覺化用、不適合建模前處理
UMAP
與 t-SNE 比較,速度較快
Autoencoder(深度學習式降維)
線性 AE 退化為 PCA
NMF(非負矩陣分解)
結果非負、易解釋
Random Projection

關聯規則

Apriori 演算法
Apriori 性質(反單調性)
FP-Growth
三指標
Support 支持度(共現比例)
Confidence 信賴度(條件機率)
Lift 提升度(>1 為正向)

異常偵測

Isolation Forest(孤立森林)
基於樹的非參數
高維友善
One-Class SVM
Autoencoder(重建誤差)
LOF(Local Outlier Factor)

L23203 深度學習原理與框架

神經網路基礎

人工神經元(加權求和 + 激活)
感知器(Perceptron)
前向傳播 Forward Propagation
反向傳播 Backpropagation
連鎖律 Chain Rule
計算梯度 → 更新參數

激活函數

Sigmoid(0–1,適二元;易飽和)
Tanh(−1 至 1)
ReLU = max(0, x)(現代主流、避免梯度消失)
Leaky ReLU
Softmax(多類別、輸出機率分佈)
GELU(BERT)

過擬合對策(6 面向)

資料面:增加資料量、資料增強、清理
特徵面:特徵選擇、特徵降維
模型面:降低複雜度、L1/L2、剪枝、Dropout
訓練面:Early Stopping、BatchNorm
評估面:驗證集、交叉驗證、避免資料洩漏
集成面:Bagging、Boosting 控制

前饋網路(MLP / Feedforward)

全連接層堆疊
適表格資料

CNN 卷積神經網路

元件
Conv Layer(局部感受野 + 權重共享)
Pooling(Max / Average)
全連接 + Softmax
關鍵特性
Stride、Padding、Filter / Kernel、Feature Map
經典架構
LeNet → AlexNet → VGG → GoogLeNet → ResNet → DenseNet → MobileNet → EfficientNet

RNN / LSTM / GRU

RNN(循環神經網路)
序列資料
限制:梯度消失、無法平行
LSTM(長短期記憶)
三門:Input / Forget / Output Gate
Cell State 細胞狀態
解決長距離依賴
GRU(LSTM 簡化版,兩門)
BiRNN(雙向 RNN)

Transformer

核心:Self-Attention
Multi-head Attention(不同表示子空間)
Positional Encoding(因 Self-Attention 對順序不變)
Encoder-Decoder
Residual + Layer Normalization
演化模型
BERT(雙向理解)
GPT(單向生成)
T5(Text-to-Text)
ViT(Vision Transformer)
Longformer / Reformer / Performer(長序列)

生成模型四大家族

Autoencoder(基礎重建)
VAE(機率潛變數;訓練穩定但影像模糊)
GAN(對抗訓練;細節銳利但 Mode Collapse)
WGAN 用 Wasserstein 距離緩解
Diffusion(逐步去噪;品質穩多樣性高)

框架

TensorFlow / Keras(Google)
PyTorch(Meta;研究主流)
JAX
Hugging Face Transformers
ONNX / TensorRT / TFLite(部署)

L233 機器學習建模與參數調校

L23301 數據準備與特徵工程

缺失值處理

直接刪除
統計填補(均值 / 中位數 / 眾數)
預測模型填補(KNN、迴歸)
缺失指標編碼(新增欄位)

異常值處理

統計法:Z-score、IQR
視覺化:箱型圖、散佈圖
機器學習:Isolation Forest、LOF
處理:移除 / 截尾 / 標記保留

特徵選擇

Filter:卡方、相關係數、資訊增益
快、與模型無關、忽略交互
Wrapper:Forward / Backward Selection、RFE
準但慢
Embedded:Lasso、樹特徵重要度
融入模型訓練

特徵衍生與聚合

數學特徵(對數、比值、差分)
互動特徵(乘積、交互組合)
時間特徵(年/月/日/星期/假日)
聚合特徵(顧客近 3 月平均)

編碼

One-hot Encoding
Ordinal Encoding(有序)
Label Encoding(陷阱:無序資料引入虛假順序)
Target Encoding(注意資料洩漏)

縮放

Min-Max(0–1)
Z-score(均值 0 標準差 1;不會壓到 [0,1])
Robust Scaling(中位數 + IQR,對極端值穩健)

資料增強

圖像:翻轉、旋轉、裁剪、色彩
文字:同義字替換、隨機插入 / 刪除
時序:Jittering、視窗裁切
表格:SMOTE(合成少數類)

L23302 模型選擇與架構設計

任務 → 模型對應

分類
簡單可解釋 → Logistic、決策樹
邊界清晰高維小樣本 → SVM
複雜資料 → 神經網路、集成
迴歸
線性 → Linear Regression
非線性 → 樹模型、神經網路
非監督
球狀分群 → K-means
雜訊與形狀不規則 → DBSCAN
降維前處理 → PCA
視覺化 → t-SNE / UMAP

選擇考量

資料規模與品質
解釋性需求
訓練 / 推論成本
部署環境(雲 / 邊緣)
即時性需求

L23303 模型訓練、評估與驗證

資料切分

Hold-out(訓練 / 驗證 / 測試)
K-fold 交叉驗證
Stratified K-fold(類別比例維持)
LOOCV(留一)
Stratified LOOCV(小樣本 + 不平衡)
Time Series CV / Rolling Window(時序專用)
Bootstrap

訓練模式

Batch GD
SGD
Mini-batch SGD

分類評估指標

Confusion Matrix(TP/FP/TN/FN)
Accuracy = (TP+TN)/總數
不平衡資料禁用
Precision = TP/(TP+FP)
Recall = TP/(TP+FN)
F1 = 2PR/(P+R)
F-beta(β>1 重 Recall;β<1 重 Precision)
ROC-AUC、PR-AUC
Macro / Micro / Weighted F1

迴歸評估指標

MSE、RMSE、MAE
MAPE
R²、Adjusted R²

聚類評估指標

Silhouette Score
Davies-Bouldin Index
Calinski-Harabasz Index

偏差–變異權衡

Bias 高 → 欠擬合
Variance 高 → 過擬合
透過模型容量 + 正則化取捨

L23304 模型調整與優化

超參數

學習率(Learning Rate)
批次大小(Batch Size)
網路深度與寬度
激活函數
優化器
正則化係數

超參數搜尋

Grid Search(全組合)
Random Search(高維更有效率)
Bayesian Optimization(動態調整)
Hyperband
AutoML(Optuna、Vertex AI)

正則化

L1 Lasso(稀疏)
L2 Ridge(權重縮小)
Elastic Net(L1 + L2)
Dropout(隨機關閉神經元)
Batch Normalization
Layer Normalization
Early Stopping + Patience
Label Smoothing

不平衡資料對策

過採樣(SMOTE)
欠採樣
類別權重(class_weight)
Focal Loss
評估改用 Recall / F1 / PR-AUC

模型壓縮

剪枝(Pruning)
知識蒸餾(Knowledge Distillation;教師→學生)
量化(Quantization;FP32→INT8)
量化感知訓練(QAT)
混合精度訓練(FP16+FP32)
低秩分解
稀疏化

MLOps 工具

MLflow、W&B(實驗追蹤)
SageMaker、Vertex AI、Kubeflow Pipelines(流程)
Model Registry(版本管理)

L234 機器學習治理

L23401 數據隱私、安全與合規

個資識別風險

直接識別資訊(PII)
準識別資訊
間接識別資訊
重識別風險(Re-identification)

資料分類與敏感度

公開 / 內部 / 機密
一般 / 個人 / 高度敏感

PIA 隱私影響評估

資料流盤點 → 風險辨識 → 影響分析 → 緩解 → 持續監督

基礎匿名化

Masking(王○○)
Hashing(SHA-256)
Generalization(出生日期 → 年代)
Suppression(隱藏)

進階 PETs

k-匿名(K-Anonymity)
l-多樣性
t-接近性
隨機擾動(Noise Injection)
差分隱私(Differential Privacy)
DP-SGD
ε(隱私預算)
聯邦學習(Federated Learning)
不傳原始資料,僅交換模型參數
同態加密(Homomorphic Encryption;FHE / PHE)
加密狀態下可進行數值運算
安全多方計算(Secure Multi-party Computation, MPC)
數位簽章

法規遵循

GDPR(歐盟,涵蓋全球處理 EU 個資者)
PDPA(台灣個資法)
CCPA(美國加州)
HIPAA(美國醫療)
PCI-DSS(支付卡)

合法使用依據

明確同意(Explicit Consent;自由、明確、可撤回)
契約必要
公共利益 / 學術研究
非個人資料(經匿名化)

內部治理

AI 治理委員會
Chief AI Officer
Data Steward
Data Catalog
Model Card(模型說明書)
權限控管 + 稽核紀錄

L23402 演算法偏見與公平性

AI 偏見來源(資料層面)

抽樣偏差(Sampling Bias)
訓練樣本族群不代表整體
特徵偏差(Feature Bias)
變數與敏感屬性高度相關
標籤偏差(Label Bias)
人工標註主觀偏見
確認偏差(Confirmation Bias)
歷史性偏見

偏見影響

弱勢群體受歧視
企業品牌信譽受損
法律與監管風險

公平性指標

Demographic Parity(群體平等率)
各群體獲得正向預測比例相等
Equal Opportunity(機會平等)
真正例的 TPR 相等
Equalized Odds
TPR + FPR 都相等
Predictive Parity
Calibration(結果校準)

公平性工具

IBM AI Fairness 360(AIF360)
Microsoft Fairlearn

偏見修正三階段

Pre-processing(資料前處理)
重新採樣 / 重加權
去除敏感特徵(注意:代理變數仍可重建)
In-processing(訓練中)
對抗式去偏(Adversarial Debiasing)
公平性約束
Post-processing(後處理)
結果門檻調整(Threshold Adjustment)
結果校準(Calibration)

AI 公平治理機制

公平性政策與標準
公平性指標訂定
持續監控
員工教育
對外透明溝通(Model Card、報告書)

🧠 科目三 心智圖 — 機器學習技術與應用

科目三 機器學習技術與應用(L23)

L231 機器學習基礎數學

L23101 機率/統計之機器學習基礎應用

條件機率與貝氏定理

機率分佈

估計方法

損失函數家族

蒙地卡羅方法

L23102 線性代數之機器學習基礎應用

基本元素

範數(Norm)

矩陣運算

矩陣分解

應用情境

L23103 數值優化技術與方法

優化問題三元素

凸 vs 非凸

梯度下降變體

自適應優化器

學習率排程

梯度問題

L232 機器學習與深度學習

L23201 機器學習原理與技術

學習範式 8 大角度(《機器學習分類總表》)

MDP 馬可夫決策過程(強化學習)

Bias-Variance Tradeoff(必背)

L23202 常見機器學習演算法

監督式學習 — 迴歸

監督式學習 — 分類

集成式學習(Ensemble)

非監督式 — 分群 / 聚類

非監督式 — 降維

關聯規則

異常偵測

L23203 深度學習原理與框架

神經網路基礎

激活函數

過擬合對策(6 面向)

前饋網路(MLP / Feedforward)

CNN 卷積神經網路

RNN / LSTM / GRU

Transformer

生成模型四大家族

框架

L233 機器學習建模與參數調校

L23301 數據準備與特徵工程

缺失值處理

異常值處理

特徵選擇

特徵衍生與聚合

編碼

縮放

資料增強

L23302 模型選擇與架構設計

任務 → 模型對應

選擇考量

L23303 模型訓練、評估與驗證

資料切分

訓練模式

分類評估指標

迴歸評估指標

聚類評估指標

偏差–變異權衡

L23304 模型調整與優化

超參數

超參數搜尋

正則化

不平衡資料對策

模型壓縮

MLOps 工具

L234 機器學習治理

L23401 數據隱私、安全與合規

個資識別風險

資料分類與敏感度

PIA 隱私影響評估

基礎匿名化

進階 PETs

法規遵循

合法使用依據

🧠 科目三心智圖 — 機器學習技術與應用

科目三機器學習技術與應用(L23)