IPAS AI 中級 — 必背名詞解釋表(閃卡版)
使用原則:每條 = 名詞(中英) + 一句話定義(極簡) + 記憶比喻
閃卡用法:正面=名詞,背面=定義+比喻;熟練後可遮一邊測驗
建議順序:共通基礎 → 科二統計 → 科三 ML → 科一 AI 應用
A. 共通基礎(50 詞)
A1. 學習範式
| # |
名詞 (English) |
一句話定義 |
記憶比喻 |
| 1 |
監督式學習 (Supervised) |
用「有答案」資料訓練 |
老師批改作業 |
| 2 |
非監督式學習 (Unsupervised) |
用「無答案」資料找結構 |
自己整理書桌 |
| 3 |
半監督式學習 (Semi-supervised) |
少量答案 + 大量無答案 |
老師只給範例 |
| 4 |
自監督式學習 (Self-supervised) |
資料本身產生訓練訊號 |
玩填空遊戲 |
| 5 |
強化式學習 (Reinforcement) |
透過獎懲學行為 |
訓練狗坐下 |
| 6 |
遷移學習 (Transfer Learning) |
把舊任務知識搬到新任務 |
會騎機車學騎車 |
| 7 |
多任務學習 (Multi-task) |
同時學多個相關任務 |
一心多用 |
| 8 |
元學習 (Meta-learning) |
學「如何更快學」 |
學讀書方法 |
| 9 |
終身學習 (Lifelong/Continual) |
學新但不忘舊 |
避免「災難性遺忘」 |
| 10 |
主動學習 (Active Learning) |
模型挑值得標註的樣本 |
學生自己提問題 |
| 11 |
弱監督學習 (Weakly Supervised) |
用不精確或雜訊標籤 |
模糊提示也能學 |
| 12 |
少樣本學習 (Few-shot) |
極少樣本學新任務 |
看 3 張就懂 |
| 13 |
一樣本學習 (One-shot) |
每類只給 1 個樣本 |
人臉辨識首見即記 |
| 14 |
零樣本學習 (Zero-shot) |
完全沒看過也能分類 |
看描述猜動物 |
| 15 |
批次學習 (Batch Learning) |
一次用全部資料訓練 |
期中考一次到位 |
| 16 |
線上學習 (Online Learning) |
資料來就立即更新 |
邊看邊學 |
| 17 |
增量學習 (Incremental) |
不必全部重訓即更新 |
加章節不重讀全書 |
A2. 模型本質
| # |
名詞 |
一句話定義 |
記憶比喻 |
| 18 |
鑑別式 (Discriminative) |
學「邊界」分類 / 預測 |
畫線分組 |
| 19 |
生成式 (Generative) |
學「分布」造新樣本 |
模仿畫家 |
| 20 |
表徵學習 (Representation) |
自動學有用的特徵 |
自己整理重點 |
| 21 |
集成學習 (Ensemble) |
多模型集思廣益 |
投票最準 |
| 22 |
深度學習 (Deep Learning) |
多層神經網路自動學特徵 |
層層抽象 |
| 23 |
機率式學習 (Probabilistic) |
用機率分布建模 |
算機率而非答案 |
| 24 |
聯邦學習 (Federated) |
資料不集中,只傳模型參數 |
各自練習互傳心得 |
| 25 |
分散式學習 (Distributed) |
運算分散在多機 |
大家分工算 |
A3. 訓練核心觀念
| # |
名詞 |
一句話定義 |
記憶比喻 |
| 26 |
過擬合 (Overfitting) |
訓練好、測試差 |
死背題庫 |
| 27 |
欠擬合 (Underfitting) |
訓練、測試都差 |
沒讀書 |
| 28 |
偏差 (Bias) |
模型「想太少」看不到規律 |
太簡單 |
| 29 |
變異 (Variance) |
模型「想太多」對雜訊敏感 |
太敏感 |
| 30 |
偏差–變異權衡 |
Bias 與 Variance 不可兼得 |
蹺蹺板 |
| 31 |
泛化能力 (Generalization) |
模型對「新資料」的表現 |
舉一反三 |
| 32 |
資料洩漏 (Data Leakage) |
測試資訊偷偷進訓練 |
偷看答案 |
| 33 |
模型漂移 (Model Drift) |
模型表現隨時間變差 |
過期商品 |
| 34 |
資料漂移 (Data Drift) |
輸入分佈隨時間變 |
顧客口味變 |
| 35 |
概念漂移 (Concept Drift) |
輸入–標籤關係變了 |
詐欺手法翻新 |
A4. 評估指標
| # |
名詞 |
一句話定義 |
記憶比喻 |
| 36 |
Accuracy 準確率 |
全部答對的比例 |
整體考試分數 |
| 37 |
Precision 精確率 |
預測為正中真為正比例 |
抓的犯人多少真犯 |
| 38 |
Recall 召回率 |
真為正中被找出的比例 |
真犯人抓到幾成 |
| 39 |
F1 分數 |
P 與 R 的調和平均 |
兩者兼顧 |
| 40 |
F-beta |
β>1 重 Recall;β<1 重 Precision |
偏重哪邊看 β |
| 41 |
ROC-AUC |
模型分辨正負類的能力 |
越接近 1 越強 |
| 42 |
混淆矩陣 (Confusion Matrix) |
TP/FP/TN/FN 表格 |
對錯交叉表 |
| 43 |
MSE/RMSE/MAE |
迴歸誤差三指標 |
MSE 罰大誤差 |
| 44 |
R² 決定係數 |
模型解釋變異的比例 |
0.85 = 解釋 85% |
| 45 |
IoU |
預測框與真實框重疊比例 |
重疊越多越準 |
| 46 |
mAP |
物件偵測綜合精準度 |
IoU 閾值越高越嚴 |
| 47 |
BLEU |
機器翻譯 n-gram 相似度 |
翻譯像不像 |
| 48 |
ROUGE |
摘要召回率指標 |
抓到關鍵詞了沒 |
| 49 |
MOS |
人耳評語音自然度 |
1–5 分主觀打分 |
| 50 |
WER 字錯率 |
語音辨識錯誤率 |
越低越準 |
B. 科目一 人工智慧技術應用規劃(80 詞)
B1. NLP
| # |
名詞 |
一句話定義 |
記憶比喻 |
| 51 |
NLP 自然語言處理 |
讓電腦理解 / 產生人話 |
翻譯機 |
| 52 |
NLU 自然語言理解 |
NLP 中「聽懂」階段 |
聽得懂 |
| 53 |
NLG 自然語言生成 |
NLP 中「說出」階段 |
說得出 |
| 54 |
Tokenization 分詞 |
把句子切成詞或子詞 |
切水果 |
| 55 |
POS 詞性標注 |
標每個詞的語法角色 |
名/動/形 |
| 56 |
NER 命名實體辨識 |
抽出人名、地名、金額 |
找專有名詞 |
| 57 |
Lemmatization 詞形還原 |
running → run(保留語意) |
還原原型 |
| 58 |
Stemming 詞幹提取 |
暴力裁字尾(可能不是字) |
happiness → happi |
| 59 |
Stopword 停用詞 |
「的、在、is」等高頻無用詞 |
沒重點的字 |
| 60 |
One-hot Encoding |
一位 1、其餘 0 的稀疏向量 |
開關燈 |
| 61 |
Bag of Words |
只算詞頻,忽略順序 |
字詞袋裝 |
| 62 |
TF-IDF |
詞頻 × 稀有度 |
強調關鍵詞 |
| 63 |
N-gram |
連續 N 個詞當特徵 |
短語片段 |
| 64 |
Word2Vec |
預測式靜態詞嵌入 |
CBOW / Skip-gram |
| 65 |
CBOW |
上下文 → 預測中心詞 |
看周圍猜中間 |
| 66 |
Skip-gram |
中心詞 → 預測上下文 |
看中間猜周圍 |
| 67 |
GloVe |
共現統計矩陣分解詞向量 |
全局詞共現 |
| 68 |
FastText |
子詞 n-gram 加總,可處理 OOV |
拼字亦可猜 |
| 69 |
ELMo |
BiLSTM 語境型詞嵌入 |
看上下文變意思 |
| 70 |
BERT |
雙向 Transformer + MLM |
雙向理解王 |
| 71 |
MLM 遮罩語言模型 |
隨機遮詞讓模型猜 |
填空練習 |
| 72 |
GPT |
單向 Transformer + 自迴歸 |
一字接一字 |
| 73 |
T5 |
所有 NLP 任務都當「文字→文字」 |
統一格式 |
| 74 |
RNN |
循環神經網路,序列依時序 |
一個接一個 |
| 75 |
LSTM |
RNN + 三門解決梯度消失 |
有記憶閥門 |
| 76 |
GRU |
LSTM 簡化版(兩門) |
精簡記憶 |
| 77 |
Self-Attention 自注意力 |
詞與詞間直接算關聯 |
全班互看 |
| 78 |
Multi-head Attention |
多組 Attention 看不同子空間 |
多角度觀察 |
| 79 |
Positional Encoding |
補回位置資訊 |
標座號 |
| 80 |
RAG 檢索增強生成 |
先查資料再生成答案 |
開卷考 |
| 81 |
Hallucination 幻覺 |
LLM 一本正經胡說八道 |
編故事 |
| 82 |
Prompt Engineering |
設計提示詞引導模型 |
下指令藝術 |
| 83 |
Few-shot Learning |
Prompt 給幾個範例 |
看樣學樣 |
| 84 |
Chain-of-Thought (CoT) |
先推理後答案 |
寫過程 |
| 85 |
Fine-tuning 微調 |
用特定領域資料再訓練 |
補習班加強 |
| 86 |
BLEU / ROUGE |
翻譯 / 摘要評估指標 |
比對相似度 |
| 87 |
Back-Translation 反向翻譯 |
譯回再譯來補語料 |
自製平行語料 |
| 88 |
Attention Collapse |
注意力分布太平均失焦 |
看哪都一樣 |
B2. CV
| # |
名詞 |
一句話定義 |
記憶比喻 |
| 89 |
Image Classification 影像分類 |
整張圖貼一個類別 |
這是貓還是狗 |
| 90 |
Object Detection 物件偵測 |
框出位置 + 類別 |
圈出人臉 |
| 91 |
Semantic Segmentation 語意分割 |
像素分類但不分實體 |
全部車輛同色 |
| 92 |
Instance Segmentation 實例分割 |
像素分類 + 區分個體 |
每台車不同色 |
| 93 |
Panoptic Segmentation 全景分割 |
語意 + 實例整合 |
兩者合一 |
| 94 |
CNN 卷積神經網路 |
用卷積核掃描圖像 |
拿放大鏡看局部 |
| 95 |
Convolutional Layer 卷積層 |
抽局部特徵(邊緣、紋理) |
第一層看線條 |
| 96 |
Pooling 池化 |
下採樣降維(取最大或平均) |
縮圖 |
| 97 |
Local Receptive Field |
卷積核只看小區域 |
局部視野 |
| 98 |
Parameter Sharing |
同一 kernel 全圖共用 |
一把刷子掃全圖 |
| 99 |
LeNet |
最早 CNN(手寫數字) |
CNN 鼻祖 |
| 100 |
AlexNet |
2012 ImageNet 突破 |
DL 元年 |
| 101 |
VGG |
深度 19 層 + 3×3 小卷積 |
深而簡 |
| 102 |
ResNet |
殘差連接,可達 152 層 |
跳線解梯度消失 |
| 103 |
YOLO |
即時物件偵測 |
一次看完 |
| 104 |
Faster R-CNN |
區域提議 + 高準確度 |
兩階段精準 |
| 105 |
U-Net |
編解碼 + Skip,醫學影像 |
U 字型 |
| 106 |
Mask R-CNN |
Faster R-CNN + 像素遮罩 |
加遮罩 |
| 107 |
IoU 交集比聯集 |
預測框與真實框重疊度 |
重疊越多越準 |
| 108 |
mAP 平均精準度 |
IoU 閾值越高越嚴 |
物件偵測指標王 |
| 109 |
ViT Vision Transformer |
把圖切片給 Transformer 處理 |
圖也用 Attention |
| 110 |
CLIP |
圖文對比學習至共享空間 |
看文字找圖 |
| 111 |
SAM (Segment Anything) |
Meta 通用分割模型 |
任意分割 |
| 112 |
LabelImg / CVAT |
影像標註工具 |
人工畫框 |
B3. 生成式 AI
| # |
名詞 |
一句話定義 |
記憶比喻 |
| 113 |
GAN 對抗生成 |
生成器 vs 判別器互相欺騙 |
偽造者 vs 警察 |
| 114 |
Generator 生成器 |
從噪聲做新樣本 |
偽造大師 |
| 115 |
Discriminator 判別器 |
分辨真假樣本 |
鑑定師 |
| 116 |
Mode Collapse 模式崩潰 |
GAN 老產出同樣東西 |
沒創意 |
| 117 |
WGAN |
用 Wasserstein 距離穩定訓練 |
改評分制 |
| 118 |
VAE 變分自編碼器 |
機率潛在空間 + 重建 |
壓縮再解壓 |
| 119 |
Diffusion 擴散模型 |
逐步去噪生成 |
從雪花還原圖 |
| 120 |
Stable Diffusion |
開源主流圖像生成 |
開源 DALL·E |
| 121 |
DALL·E |
OpenAI 文字→圖像 |
畫畫機 |
| 122 |
Midjourney |
藝術風格商業生成 |
美術館等級 |
| 123 |
Autoregressive 自迴歸 |
一個接一個生成 |
接龍 |
| 124 |
RLHF 人類反饋強化學習 |
用人類偏好訓練模型 |
讓 AI 學人類愛好 |
| 125 |
Red Teaming 紅隊 |
主動誘發有害輸出找漏洞 |
模擬攻擊 |
| 126 |
Alignment 對齊 |
讓模型符合人類價值 |
AI 學做人 |
| 127 |
Deepfake 深偽 |
AI 偽造影音 |
換臉騙術 |
| 128 |
Watermarking 浮水印 |
標記 AI 生成內容 |
蓋章追溯 |
| 129 |
Agentic AI 代理式 |
能自主規劃多步任務 |
小秘書 |
| 130 |
Autonomous System 自治系統 |
在授權內自主完成 |
老闆只設目標 |
B4. 多模態與部署
| # |
名詞 |
一句話定義 |
記憶比喻 |
| 131 |
Multimodal AI 多模態 |
同時處理多種感知 |
五感並用 |
| 132 |
Modality 模態 |
一種資料類型(文/圖/聲) |
感官 |
| 133 |
Early Fusion 早期融合 |
在原始資料層整合 |
食材先混 |
| 134 |
Late Fusion 晚期融合 |
各自抽特徵後再合併 |
各自烹調最後拼盤 |
| 135 |
Batch Serving |
定期批次推論 |
每日報表 |
| 136 |
Real-time Serving |
即時 API 推論 |
秒回 |
| 137 |
Edge Serving |
在裝置端推論 |
不上雲 |
| 138 |
Docker |
容器化執行環境 |
把程式裝箱 |
| 139 |
Kubernetes (K8s) |
容器編排平台 |
貨櫃指揮中心 |
| 140 |
Auto Scaling |
流量大就自動加機 |
自動擴點 |
| 141 |
Canary Release |
5% 流量試新版 |
小白鼠先測 |
| 142 |
Phased Rollout 漸進部署 |
從一個專科逐步擴展 |
分區開放 |
| 143 |
A/B Testing |
兩版本流量分流比較 |
雙盲測試 |
| 144 |
MLOps |
ML 版的 DevOps |
ML 自動化流水線 |
| 145 |
CI 持續整合 |
commit 觸發自動測試 |
自動驗收 |
| 146 |
Model Registry |
集中管理模型版本 |
模型書架 |
| 147 |
PSI Population Stability Index |
偵測輸入分佈漂移 |
顧客變了沒 |
| 148 |
KL Divergence |
衡量分佈差異 |
分佈距離尺 |
B5. AI 治理與評估
| # |
名詞 |
一句話定義 |
記憶比喻 |
| 149 |
POC 概念驗證 |
小範圍測試可行性 |
試做小樣品 |
| 150 |
ROI 投資報酬率 |
(回報−成本)/成本 |
賺多少倍 |
| 151 |
NPV 淨現值 |
折現後的總價值 |
折現後賺多少 |
| 152 |
Payback Period 回收期 |
投資多久回本 |
幾年回本 |
| 153 |
KPI 關鍵績效指標 |
量化目標 |
業績達標數字 |
| 154 |
As-Is / To-Be |
現況流程 / 理想流程 |
現在 / 未來 |
| 155 |
Stakeholder 利害關係人 |
與專案有關的人 |
各方勢力 |
| 156 |
Risk Matrix 風險矩陣 |
機率×影響的二維表 |
紅黃綠燈 |
| 157 |
XAI 可解釋 AI |
讓 AI 決策可被理解 |
解釋為什麼 |
| 158 |
SHAP / LIME |
兩大 XAI 解釋工具 |
看特徵貢獻 |
| 159 |
Model Card 模型說明書 |
紀錄模型用途、限制 |
模型身分證 |
| 160 |
Data Catalog 資料目錄 |
集中盤點所有資料 |
圖書館目錄 |
| 161 |
GDPR |
歐盟個資保護法 |
歐洲護資 |
| 162 |
PDPA 台灣個資法 |
台灣個資保護 |
台版 GDPR |
| 163 |
HIPAA |
美國醫療資訊法 |
美醫療隱私 |
| 164 |
PCI-DSS |
信用卡支付安全標準 |
刷卡防護 |
| 165 |
GDPR Art.17 刪除權 |
用戶可要求刪資料 |
被遺忘權 |
| 166 |
GDPR Art.22 反對自動化決策 |
用戶可要求人工複核 |
真人重看 |
| 167 |
DPIA 隱私影響評估 |
評估資料處理風險 |
隱私體檢 |
| 168 |
Non-repudiation 不可否認性 |
行為可追溯不能賴帳 |
簽名作證 |
| 169 |
Digital Signature 數位簽章 |
加密證明簽署者身分 |
電子章 |
| 170 |
Adversarial Attack 對抗攻擊 |
微小擾動騙過模型 |
隱形改造 |
C. 科目二 大數據處理分析與應用(80 詞)
C1. 敘述統計
| # |
名詞 |
一句話定義 |
記憶比喻 |
| 171 |
Mean 算術平均 |
加總除以個數 |
普通平均 |
| 172 |
Geometric Mean 幾何平均 |
n 個值的乘積開 n 次方 |
算成長率用 |
| 173 |
Harmonic Mean 調和平均 |
n / Σ(1/xᵢ) |
算速率用 |
| 174 |
Median 中位數 |
排序後中間那個 |
不怕極端值 |
| 175 |
Mode 眾數 |
最常出現的值 |
最熱門 |
| 176 |
Variance 變異數 |
與平均距離平方平均 |
散得多遠 |
| 177 |
SD 標準差 |
變異數開根號 |
Var 的平方根 |
| 178 |
Range 全距 |
最大值 − 最小值 |
跨多遠 |
| 179 |
IQR 四分位距 |
Q3 − Q1 |
中間 50% 範圍 |
| 180 |
Q1/Q2/Q3 四分位數 |
25%、50%、75% 切點 |
切四等分 |
| 181 |
Box Plot 箱形圖 |
視覺化分位數與離群值 |
盒鬚圖 |
| 182 |
Skewness 偏度 |
分佈對稱程度 |
尾巴偏哪邊 |
| 183 |
Kurtosis 峰度 |
尾部厚度與峰尖度 |
多尖、多胖尾 |
| 184 |
Z-score |
(x−μ)/σ |
離平均幾個 σ |
| 185 |
Outlier 離群值 |
偏離整體的極端值 |
班上特例 |
C2. 機率分佈
| # |
名詞 |
一句話定義 |
記憶比喻 |
| 186 |
PMF 機率質量函數 |
離散值的點機率 |
骰子各面機率 |
| 187 |
PDF 機率密度函數 |
連續值的密度 |
點密度 |
| 188 |
CDF 累積分佈函數 |
機率累加到某值 |
累計到此 |
| 189 |
E(X) 期望值 |
隨機變數平均 |
長期平均 |
| 190 |
Var(X) 變異數 |
平方偏差平均 |
散開程度 |
| 191 |
Bernoulli 伯努利 |
單次成敗試驗 |
拋一次硬幣 |
| 192 |
Binomial 二項分佈 |
n 次伯努利的成功次數 |
拋 n 次 |
| 193 |
Poisson 卜瓦松 |
固定時間內事件數 |
平均 λ 次 |
| 194 |
Normal 常態分佈 |
鐘型對稱 |
鐘形曲線 |
| 195 |
Uniform 均勻分佈 |
各值機率相同 |
機率扁平 |
| 196 |
Exponential 指數分佈 |
等待時間;無記憶性 |
不管等多久從頭算 |
| 197 |
Chi-square 卡方 |
常態平方和 |
用於卡方檢定 |
| 198 |
CLT 中央極限定理 |
樣本均值趨近常態 |
平均一定鐘形 |
| 199 |
Lognormal 對數常態 |
取 log 後為常態 |
偏態變對稱 |
C3. 假設檢定
| # |
名詞 |
一句話定義 |
記憶比喻 |
| 200 |
H₀ 虛無假設 |
「沒有差異」的預設立場 |
嫌犯無罪推定 |
| 201 |
H₁ 對立假設 |
「有差異」的主張 |
想證明的事 |
| 202 |
α 顯著水準 |
容許型一錯誤上限 |
誤判紅線 |
| 203 |
p 值 |
「假如 H₀ 真」出現此資料機率 |
p 越小越可疑 |
| 204 |
Type I Error 型一錯誤 |
誤拒 H₀(假警報) |
把好人當壞人 |
| 205 |
Type II Error 型二錯誤 |
誤留 H₀(漏判) |
把壞人放走 |
| 206 |
Power 檢定力 |
1 − β,正確拒絕能力 |
抓壞人的本事 |
| 207 |
t-test t 檢定 |
比較平均(σ 未知) |
平均差異測試 |
| 208 |
Paired t-test 配對 t |
同人前後測差值 |
治療前後 |
| 209 |
Two-proportion Z 雙比例 Z |
兩組比例差檢定 |
良率比較 |
| 210 |
ANOVA 變異數分析 |
三組以上平均比較 |
多組均值差 |
| 211 |
Chi-square Test 卡方檢定 |
類別變數獨立性 / 適配度 |
類別關聯 |
| 212 |
Pearson r |
線性相關係數 −1~1 |
線性關聯強度 |
| 213 |
Spearman ρ |
等級相關係數 |
排序關聯 |
| 214 |
Mann-Whitney U |
非參數兩組獨立比較 |
t 的非參數版 |
| 215 |
Bonferroni |
多重檢定 α 校正 |
切蛋糕分配 α |
| 216 |
CI 信賴區間 |
母體參數可能落的範圍 |
估計區間 |
C4. 資料工程
| # |
名詞 |
一句話定義 |
記憶比喻 |
| 217 |
5V |
Volume/Variety/Velocity/Veracity/Value |
大數據五大特性 |
| 218 |
Structured 結構化 |
表格欄位固定 |
Excel 表 |
| 219 |
Semi-structured 半結構化 |
有結構但欄位彈性 |
JSON、XML |
| 220 |
Unstructured 非結構化 |
無固定格式 |
影像、文字、語音 |
| 221 |
MCAR 完全隨機缺失 |
缺失與任何變數無關 |
純隨機 |
| 222 |
MAR 隨機缺失 |
缺失與其他變數有關 |
可預測 |
| 223 |
MNAR 非隨機缺失 |
缺失與該值本身相關 |
高收入不填薪資 |
| 224 |
ETL |
抽取 / 轉換 / 載入 |
資料搬運三步驟 |
| 225 |
Data Lake 資料湖 |
任意格式儲存,事後解析 |
湖中啥都丟 |
| 226 |
Data Warehouse 資料倉儲 |
結構化、強治理 |
整理好的書庫 |
| 227 |
Data Lakehouse 資料湖倉 |
Lake + Warehouse 結合 |
湖加倉 |
| 228 |
HDFS |
Hadoop 分散式檔案系統 |
大檔切片存多機 |
| 229 |
NoSQL |
非關聯式資料庫總稱 |
不只 SQL |
| 230 |
Key-Value DB |
鍵值對資料庫 |
字典 |
| 231 |
Document DB |
文件型資料庫 |
一卷一卷的 |
| 232 |
Graph DB |
圖形資料庫 |
節點 + 邊 |
| 233 |
ACID |
原子/一致/隔離/持久 |
交易四特性 |
| 234 |
Atomicity 原子性 |
全部成功或全部回復 |
全有或全無 |
| 235 |
Consistency 一致性 |
滿足完整性規則 |
規則不破 |
| 236 |
Isolation 隔離性 |
並行交易不互擾 |
各自為政 |
| 237 |
Durability 持久性 |
已提交永久保存 |
不會消失 |
| 238 |
CAP |
一致/可用/分區容忍三選二 |
取捨三角 |
| 239 |
RBAC |
角色為基存取控制 |
看角色給權限 |
| 240 |
Zero Trust 零信任 |
永遠不預設信任 |
從不放心 |
C5. 處理框架與分析
| # |
名詞 |
一句話定義 |
記憶比喻 |
| 241 |
Hadoop / MapReduce |
批次分散運算經典 |
老牌大數據 |
| 242 |
Spark |
記憶體運算、迭代快 |
Hadoop 加速版 |
| 243 |
Flink |
低延遲串流引擎 |
即時處理 |
| 244 |
Beam |
批次 + 串流統一抽象 |
跨平台抽象 |
| 245 |
Kafka |
訊息佇列(串流) |
大水管 |
| 246 |
Airflow |
任務排程平台 |
流程編排器 |
| 247 |
HyperLogLog |
估計不重複數量 |
算「有幾種」 |
| 248 |
Count-Min Sketch |
估計高頻項 |
Top-K 找熱門 |
| 249 |
Welford's Method |
線上算均值/變異數 |
邊收邊算 |
| 250 |
Reservoir Sampling |
串流隨機抽樣 |
蓄水池抽樣 |
| 251 |
t-digest |
近似分位數 |
估 Q1/Q3 用 |
| 252 |
ARIMA |
經典時序模型 |
自迴歸 + 差分 + 移動平均 |
| 253 |
Prophet |
Meta 開源時序工具 |
季節 + 節慶友善 |
| 254 |
LDA Topic Model |
文本主題模型 |
自動找話題 |
| 255 |
Apriori |
購物籃關聯規則演算法 |
啤酒尿布 |
| 256 |
Support 支持度 |
同時出現的比例 |
共現多少 |
| 257 |
Confidence 信賴度 |
條件機率 P(B |
A) |
| 258 |
Lift 提升度 |
>1 為正向關聯 |
比隨機強多少 |
C6. 視覺化與隱私
| # |
名詞 |
一句話定義 |
記憶比喻 |
| 259 |
Histogram 直方圖 |
看連續值分佈 |
分桶高度 |
| 260 |
KDE 核密度估計 |
平滑分佈曲線 |
平滑直方圖 |
| 261 |
Heatmap 熱力圖 |
顏色強度顯示矩陣值 |
深淺看大小 |
| 262 |
Correlation Matrix |
多變數兩兩相關係數表 |
變數關係表 |
| 263 |
Tufte Data Density |
同空間最大化資訊 |
不浪費版面 |
| 264 |
Tableau / Power BI |
商業 BI 工具 |
拖拉拉做圖 |
| 265 |
Grafana |
即時監控儀表板 |
即時告警牆 |
| 266 |
PII 個資 |
直接可識別個人資訊 |
姓名、ID |
| 267 |
Quasi-Identifier 準識別 |
組合可推回個人 |
出生 + 郵遞區號 |
| 268 |
Anonymization 匿名化 |
移除可識別資訊 |
蓋掉名字 |
| 269 |
Pseudonymization 偽匿名 |
換代碼但可還原 |
用化名 |
| 270 |
k-Anonymity |
k 筆紀錄具相同準識別組合 |
至少 k 個雙胞胎 |
| 271 |
Differential Privacy 差分隱私 |
加噪保護單筆存在 |
統計加雜訊 |
| 272 |
Federated Learning 聯邦 |
不傳原始資料,只傳模型參數 |
各家練自己的 |
| 273 |
Homomorphic Encryption 同態加密 |
加密狀態仍可運算 |
鎖著還能算 |
| 274 |
MPC 安全多方計算 |
多方協作不洩漏各自資料 |
暗中合作 |
| 275 |
Hash 雜湊 |
單向轉固定字串 |
不可逆指紋 |
D. 科目三 機器學習技術與應用(120 詞)
D1. 數學基礎
| # |
名詞 |
一句話定義 |
記憶比喻 |
| 276 |
Bayes 貝氏定理 |
P(A |
B)=P(B |
| 277 |
MLE 最大概似 |
找最可能產生資料的參數 |
「最像」估計 |
| 278 |
MAP 最大事後 |
MLE + 先驗信念 |
加先入為主 |
| 279 |
Vector 向量 |
數值有序組合 |
一串數字 |
| 280 |
Matrix 矩陣 |
二維數值表 |
二維表格 |
| 281 |
Tensor 張量 |
多維數值陣列 |
高維矩陣 |
| 282 |
L1 Norm |
絕對值總和 |
曼哈頓距離 |
| 283 |
L2 Norm |
平方和開根號 |
直線距離 |
| 284 |
Eigenvalue 特徵值 |
矩陣縮放方向的縮放量 |
主軸長度 |
| 285 |
Eigenvector 特徵向量 |
矩陣作用後方向不變的向量 |
主軸方向 |
| 286 |
EVD 特徵值分解 |
A=QΛQᵀ(限對稱方陣) |
主軸拆解 |
| 287 |
SVD 奇異值分解 |
M=UΣVᵀ(任意矩陣) |
通用分解王 |
| 288 |
Convex 凸函數 |
唯一最小值 |
碗型 |
| 289 |
Non-convex 非凸 |
多個局部最小 |
山谷地形 |
| 290 |
Local Optima 局部最優 |
只是附近最低 |
小山谷 |
| 291 |
Saddle Point 鞍點 |
一方向凹一方向凸 |
馬鞍形 |
| 292 |
Gradient 梯度 |
函數變化最快方向 |
上坡最陡的路 |
| 293 |
Gradient Descent 梯度下降 |
沿負梯度更新參數 |
走下坡找谷底 |
| 294 |
Learning Rate 學習率 |
每步走多大 |
步伐大小 |
| 295 |
Loss Function 損失函數 |
衡量預測與真實差距 |
錯多少 |
| 296 |
MSE 均方誤差 |
平方平均(罰大誤差) |
大錯重罰 |
| 297 |
Cross-Entropy 交叉熵 |
分類常用損失 |
機率距離 |
| 298 |
Monte Carlo 蒙地卡羅 |
隨機抽樣模擬機率 |
大量抽樣估算 |
D2. 優化與正則化
| # |
名詞 |
一句話定義 |
記憶比喻 |
| 299 |
SGD 隨機梯度下降 |
用一筆/小批資料更新 |
邊走邊修 |
| 300 |
Mini-batch |
小批量更新 |
折衷現代主流 |
| 301 |
Momentum 動量 |
累積過去梯度方向 |
慣性續行 |
| 302 |
Adagrad |
自適應學習率(歷史平方) |
變動少的給多 |
| 303 |
RMSprop |
滑動平均修正 Adagrad |
RNN 友善 |
| 304 |
Adam |
Momentum + RMSprop |
最常用王者 |
| 305 |
Gradient Clipping 梯度裁剪 |
限制梯度上限 |
防爆保險絲 |
| 306 |
Vanishing Gradient 梯度消失 |
反向傳播時梯度趨 0 |
深層訊號傳不到 |
| 307 |
Exploding Gradient 梯度爆炸 |
梯度過大發散 |
數值炸裂 |
| 308 |
L1 / Lasso |
加絕對值懲罰,稀疏化 |
自動特徵選擇 |
| 309 |
L2 / Ridge |
加平方懲罰,壓小權重 |
不會歸零 |
| 310 |
Elastic Net |
L1 + L2 結合 |
雙效合一 |
| 311 |
Dropout |
隨機關閉神經元 |
強迫團隊不靠某人 |
| 312 |
Batch Normalization |
批次內標準化 |
穩定訓練 |
| 313 |
Layer Normalization |
樣本內標準化 |
NLP/Transformer 用 |
| 314 |
Early Stopping |
驗證變差就停 |
見好就收 |
| 315 |
Patience 耐心值 |
連續 n 輪未改善才停 |
等等看再決定 |
D3. 監督式演算法
| # |
名詞 |
一句話定義 |
記憶比喻 |
| 316 |
Linear Regression 線性迴歸 |
連續預測,擬合直線 |
直線預測 |
| 317 |
OLS 最小平方法 |
誤差平方和最小化 |
擬合方法經典 |
| 318 |
Logistic Regression 邏輯迴歸 |
二元分類用 Sigmoid |
機率分類器 |
| 319 |
Sigmoid |
把值壓到 (0,1) |
S 曲線 |
| 320 |
Softmax |
多類別輸出機率 |
多元 Sigmoid |
| 321 |
Decision Tree 決策樹 |
一連串 if-else 分裂 |
流程圖 |
| 322 |
Gini Impurity 吉尼不純度 |
樹分裂準則之一 |
越純越好 |
| 323 |
Information Gain 資訊增益 |
用熵衡量分裂好壞 |
切後更整齊 |
| 324 |
Pruning 剪枝 |
砍掉不必要分支 |
修剪樹枝 |
| 325 |
Random Forest 隨機森林 |
多棵樹投票(Bagging) |
群樹智慧 |
| 326 |
Bagging |
並行訓練多模型平均 |
大家投票 |
| 327 |
Boosting |
串行修正前模型錯誤 |
後浪修前浪 |
| 328 |
AdaBoost |
加權訓練弱分類器 |
錯題多練 |
| 329 |
GBDT 梯度提升樹 |
逐棵擬合殘差 |
補上一棵的錯 |
| 330 |
XGBoost |
GBDT + 正則 + 並行 |
GBDT 加強版 |
| 331 |
LightGBM |
Histogram + Leaf-wise |
比 XGBoost 更快 |
| 332 |
SVM 支援向量機 |
找最大邊界超平面 |
兩派之間的中線 |
| 333 |
Margin 邊界 |
分隔線到最近樣本距離 |
越寬越穩 |
| 334 |
Support Vector 支援向量 |
決定邊界的關鍵點 |
邊界上的人 |
| 335 |
Kernel Trick 核技巧 |
映射高維讓資料可分 |
升維變直線 |
| 336 |
RBF Kernel |
徑向基函數核 |
非線性最常用 |
| 337 |
KNN K 近鄰 |
看 K 個最近鄰投票 |
物以類聚 |
| 338 |
Curse of Dimensionality |
維度高所有距離趨同 |
高維看不出近遠 |
| 339 |
Naive Bayes 樸素貝氏 |
假設特徵條件獨立 |
簡化貝氏 |
| 340 |
Laplace Smoothing 拉普拉斯平滑 |
防零機率問題 |
加 1 補底 |
| 341 |
LDA / QDA |
線性 / 二次判別分析 |
機率分類器 |
D4. 非監督式
| # |
名詞 |
一句話定義 |
記憶比喻 |
| 342 |
K-Means |
指定 K 個質心做分群 |
物以類聚分 K 堆 |
| 343 |
Centroid 質心 |
群的平均位置 |
群中心 |
| 344 |
Elbow Method 手肘法 |
找 K 值的轉折點 |
看曲線拐彎 |
| 345 |
Silhouette Score 輪廓係數 |
群聚緊密 + 分離度 |
越接近 1 越好 |
| 346 |
Hierarchical Clustering 階層分群 |
由下而上合併或上而下分裂 |
樹狀分群 |
| 347 |
Dendrogram 樹狀圖 |
階層分群的視覺化 |
樹狀層級 |
| 348 |
DBSCAN |
密度為基的分群 |
找密集點堆 |
| 349 |
Core Point 核心點 |
ε 內 ≥ MinPts |
DBSCAN 主角 |
| 350 |
Border Point 邊界點 |
自己非核心但落在 Core 鄰域 |
邊緣支持者 |
| 351 |
Noise Point 雜訊點 |
都不是,被歸為雜訊 |
路人甲 |
| 352 |
ε / MinPts |
DBSCAN 兩超參數 |
半徑 + 最少點 |
| 353 |
GMM 高斯混合模型 |
用多個常態分群 |
多鐘形混合 |
| 354 |
EM 演算法 |
GMM 訓練法,期望 + 最大化 |
反覆估計 |
D5. 降維(獨立區塊;高頻考)
| # |
名詞 |
一句話定義 |
記憶比喻 |
| 355 |
PCA 主成分分析 |
找最大變異方向降維 |
保留主軸 |
| 356 |
LDA 線性判別分析 |
監督式降維、最大化類別分離 |
唯一監督式 |
| 357 |
ICA 獨立成分分析 |
拆成統計獨立成分 |
訊號分離 |
| 358 |
Kernel PCA |
PCA 的非線性延伸 |
升維後 PCA |
| 359 |
t-SNE |
非線性視覺化降維 |
畫圖看群聚 |
| 360 |
UMAP |
比 t-SNE 快的視覺化降維 |
t-SNE 快車版 |
| 361 |
Autoencoder 自編碼器 |
神經網路壓縮再重建 |
摺紙再展開 |
| 362 |
NMF 非負矩陣分解 |
結果非負、易解釋 |
主題分析常用 |
| 363 |
Random Projection |
隨機矩陣投影降維 |
隨機砸線 |
D6. 異常與關聯
| # |
名詞 |
一句話定義 |
記憶比喻 |
| 364 |
Isolation Forest 孤立森林 |
隨機切分孤立異常點 |
異常容易被切出 |
| 365 |
One-Class SVM |
學「正常」邊界的 SVM |
找正常範圍 |
| 366 |
LOF 局部離群因子 |
看局部密度比鄰居稀疏 |
跟鄰居比稀疏度 |
| 367 |
Apriori 演算法 |
找頻繁項集 + 規則 |
啤酒尿布找關聯 |
D7. 深度學習
| # |
名詞 |
一句話定義 |
記憶比喻 |
| 368 |
Neural Network 神經網路 |
模仿生物神經元疊起來 |
多層計算單元 |
| 369 |
Perceptron 感知器 |
最早的神經元模型 |
一個神經元 |
| 370 |
MLP 多層感知器 |
全連接前饋網路 |
標準神經網路 |
| 371 |
Backpropagation 反向傳播 |
用連鎖律算梯度更新 |
從錯誤回推修 |
| 372 |
Activation 激活函數 |
引入非線性 |
神經元開關 |
| 373 |
ReLU |
max(0, x),最常用 |
負的歸零 |
| 374 |
Tanh |
(-1,1) 範圍激活 |
Sigmoid 加強 |
| 375 |
LeakyReLU |
負區也給小斜率 |
不會死亡 |
| 376 |
Encoder-Decoder 編碼解碼器 |
壓縮再生成的兩段架構 |
壓再放 |
| 377 |
Transformer |
Self-Attention + 並行架構 |
DL 革命 |
| 378 |
Q/K/V |
Query/Key/Value 三角色 |
提問/鑰匙/答案 |
| 379 |
FFN 前饋網路 |
Transformer 中的全連接層 |
後處理器 |
| 380 |
Residual Connection |
跳線連接 |
跳級保訊號 |
| 381 |
Layer Normalization |
層內歸一化 |
穩定 Transformer |
| 382 |
Tokenization |
切詞為模型輸入單位 |
切 token |
| 383 |
BERT / GPT / T5 / ViT |
主流 Transformer 變體 |
應用全光譜 |
| 384 |
Knowledge Distillation 知識蒸餾 |
大模型教小模型 |
老師教學生 |
| 385 |
Quantization 量化 |
FP32 → INT8 |
數值降精度 |
| 386 |
QAT 量化感知訓練 |
訓練時即模擬量化 |
預習量化 |
| 387 |
Pruning 剪枝 |
砍掉小權重連結 |
修身減肥 |
| 388 |
Mixed Precision 混合精度 |
FP16 + FP32 訓練 |
雙精度加速 |
D8. 評估與調校
| # |
名詞 |
一句話定義 |
記憶比喻 |
| 389 |
Hold-out |
切訓練 / 驗證 / 測試 |
一刀切 |
| 390 |
K-fold CV |
切 K 份輪流驗證 |
輪流當評審 |
| 391 |
Stratified K-fold |
維持類別比例的 K-fold |
比例切 |
| 392 |
LOOCV 留一交叉驗證 |
每次留一筆驗證 |
一個一個試 |
| 393 |
Stratified LOOCV |
留一 + 維持比例 |
小資料不平衡用 |
| 394 |
Time Series CV |
訓練只能看過去 |
不能偷看未來 |
| 395 |
Rolling Window |
滑動視窗驗證 |
視窗向前滑 |
| 396 |
Bootstrap |
有放回抽樣評估 |
抽多次再平均 |
| 397 |
Hyperparameter 超參數 |
訓練前要設定的參數 |
出廠調節旋鈕 |
| 398 |
Grid Search 網格搜尋 |
全組合測試 |
地毯式搜尋 |
| 399 |
Random Search 隨機搜尋 |
隨機抽組合測試 |
高維更有效率 |
| 400 |
Bayesian Optimization |
動態調整搜尋方向 |
越測越聰明 |
| 401 |
AutoML |
自動化模型選擇與調校 |
模型懶人包 |
| 402 |
SMOTE |
合成少數類樣本 |
造假平衡資料 |
| 403 |
Undersampling 欠採樣 |
砍多數類 |
平衡資料簡單法 |
| 404 |
Class Weight 類別權重 |
給少數類更高權重 |
重視少數 |
| 405 |
Focal Loss |
強調難分類樣本的損失 |
專心學難題 |
D9. 偏見與治理
| # |
名詞 |
一句話定義 |
記憶比喻 |
| 406 |
Sampling Bias 抽樣偏差 |
訓練樣本不代表整體 |
只訪老顧客 |
| 407 |
Feature Bias 特徵偏差 |
變數與敏感屬性高度相關 |
代理特徵 |
| 408 |
Label Bias 標籤偏差 |
人工標註帶主觀偏見 |
標註者偏心 |
| 409 |
Demographic Parity 群體平等 |
各群體獲正向預測比例相等 |
結果公平 |
| 410 |
Equal Opportunity 機會平等 |
真正例的 TPR 各群相等 |
該過的都過 |
| 411 |
Equalized Odds |
TPR + FPR 都相等 |
雙指標公平 |
| 412 |
Adversarial Debiasing 對抗去偏 |
訓練時阻止學敏感屬性 |
抗偏訓練 |
| 413 |
Calibration 結果校準 |
各群體分數重新對齊 |
調整分數含意 |
| 414 |
Threshold Adjustment 門檻調整 |
各群分類門檻不同 |
對症調門檻 |
| 415 |
AIF360 / Fairlearn |
兩大公平性工具 |
IBM / 微軟出品 |
E. 高頻陷阱詞(臨場回憶 30 詞)
這些是 150 題公告試題反覆出現的「易混 / 易誤」名詞。考前 2 小時再看一次。
| # |
名詞 |
易誤陷阱 |
正解一句話 |
| 416 |
Standardization |
「會壓到 [0,1]」是錯的 |
那是 Min-Max;Z-score 均值 0 SD 1 |
| 417 |
Label Encoding |
「無序類別也可用」是錯的 |
會引入虛假順序,用 One-hot |
| 418 |
Accuracy |
「不平衡資料用 Accuracy」是錯的 |
用 F1 / Recall / ROC-AUC |
| 419 |
LDA(降維) |
「不需標籤」是錯的 |
LDA 是唯一監督式降維 |
| 420 |
t-SNE |
「適合建模前處理」是錯的 |
主要用於視覺化 |
| 421 |
ICA |
「找最大變異」是錯的 |
找的是統計獨立成分 |
| 422 |
Autoencoder |
「一定線性」是錯的 |
通常做非線性降維 |
| 423 |
NMF |
「任意正負皆可」是錯的 |
只處理非負資料 |
| 424 |
生成式模型 |
「信用評分卡標準步驟」是錯的 |
不屬於傳統評分卡流程 |
| 425 |
Adam 動量 |
「Adam 沒有動量」是錯的 |
Adam「內建」動量 + RMSprop |
| 426 |
過擬合對策 |
「擴增特徵」是錯的 |
反而提升複雜度 |
| 427 |
p > α |
「H₀ 為真」是錯的 |
只是「無法拒絕」 |
| 428 |
Lift > 1 |
「無關」是錯的 |
是「正向關聯」 |
| 429 |
上鬚(箱形圖) |
「等於最大值」是錯的 |
只是不含離群值的最大 |
| 430 |
CLT |
「資料本身會變常態」是錯的 |
是「樣本均值」會趨常態 |
| 431 |
PCA 前處理 |
「不需標準化」是錯的 |
否則大尺度欄位主導 |
| 432 |
二項常態近似 |
「樣本大就行」是錯的 |
需 np>5 且 n(1−p)>5 |
| 433 |
同態加密 |
「需先解密才能算」是錯的 |
加密狀態下可直接運算 |
| 434 |
聯邦學習 |
「集中資料訓練」是錯的 |
資料不離開本地 |
| 435 |
防火牆 |
「對抗對抗樣本」是錯的 |
對抗攻擊需 Adversarial Training |
| 436 |
DBSCAN |
「需指定 K」是錯的 |
用 ε + MinPts |
| 437 |
RNN |
「平行處理」是錯的 |
必須序列依時序 |
| 438 |
Multi-head |
「為了省參數」是錯的 |
為了多子空間關聯 |
| 439 |
移除敏感欄位 |
「就能消除偏見」是錯的 |
代理變數仍會重建偏見 |
| 440 |
K-fold + 同時調超參 |
「結果可信」是錯的 |
會資料洩漏導致樂觀偏差 |
| 441 |
線性激活函數 |
「多層更強」是錯的 |
多層線性 = 單層線性 |
| 442 |
Recall vs Precision |
「Recall 高就是好」是錯的 |
看任務,漏判代價高才重 |
| 443 |
Confidence (Lift) |
「Confidence 高就有用」未必 |
需配合 Lift > 1 |
| 444 |
XGBoost |
「等於 Random Forest」是錯的 |
RF=Bagging;XGB=Boosting |
| 445 |
Hard-coding |
「等於 ML」是錯的 |
寫死規則 vs 從資料學 |
使用提示
製作圖片閃卡建議
正面範本:
名詞:Z-score
英文:Standardization
背面範本:
定義:(x − μ) / σ
比喻:離平均幾個 σ
陷阱:不會壓到 [0,1](那是 Min-Max)
複習節奏建議(7 天倒數)
- D7 (5/16):A 共通 50 詞
- D6 (5/17):C 科二 80 詞
- D5 (5/18):D1–D2 數學優化 40 詞
- D4 (5/19):D3–D6 演算法 60 詞
- D3 (5/20):D7–D9 DL + 治理 50 詞
- D2 (5/21):B 科一 80 詞
- D1 (5/22):只看 E 高頻陷阱詞 30 條 + 主檔 §3 易混表
來源:三科學習指引 + 150 題中級公告試題 + 三份考試總表(機器學習分類 / 過擬合 / 降維) + 初級全文講義 + 主檔 v3