科目二大數據處理分析與應用(L22)

L221 機率統計基礎

L22101 敘述性統計與資料摘要技術

集中趨勢(三均數 + 眾數 + 中位數)

算術平均(Arithmetic Mean)
對極端值敏感
適用對稱分佈
幾何平均(Geometric Mean)
適成長率、報酬率(乘積效應)
限制:資料須為正
調和平均(Harmonic Mean)
適速率 / 效率
限制:不能為 0 或負
眾數(Mode)
出現頻率最高
適類別資料
中位數(Median)
對極端值不敏感
適長尾、收入、房價

離散程度

變異數 Variance / 標準差 SD
對極端值敏感
全距 Range(最大 − 最小)
四分位距 IQR = Q3 − Q1
四分位數 Q1 / Q2(中位數)/ Q3
箱形圖 Box Plot
中位數線 + Q1/Q3 盒
上鬚:Q3 + 1.5×IQR
- 重點:不等於最大值,僅含「不含離群值」最大
下鬚:Q1 − 1.5×IQR
離群值:超出鬚範圍以點 / 星標出

分佈形狀

偏度 Skewness
0 右偏(正偏):平均 > 中位數,如收入、房價
<0 左偏(負偏):平均 < 中位數
≈0:對稱(常態)
峰度 Kurtosis(Pearson 標準=3)
3 高峰 Leptokurtic(極端值多)
=3 中峰 Mesokurtic(常態)
<3 扁平 Platykurtic

Z-score 標準化

公式:Z = (x − μ) / σ
|Z| ≥ 3 通常視為異常值
Z=2:離平均 2 個標準差

pandas 速查

.describe()(一次回傳 8 項)
.isna() / .isnull()(等價)
.fillna().astype('Int64')(支援 NA 整數)
.groupby().sum/mean/count()
.nlargest(n)

L22102 機率分佈與資料分佈模型

重要數值

期望值 E(X)
變異數 Var(X)
標準差 σ = √Var(X)

函數類型

PMF(機率質量函數)— 離散
PDF(機率密度函數)— 連續
在某點「值」非機率,需積分得區間
CDF(累積分佈函數)
連續 = PDF 積分
離散 = PMF 累加

離散型分佈

伯努利(Bernoulli)
單次試驗,X ∈ {0,1}
E=p,Var=p(1−p)
二項(Binomial)
n 次獨立試驗成功次數
E=np,Var=np(1−p)
常態近似條件:np>5 且 n(1−p)>5
泊松 / 卜瓦松(Poisson)
固定時間 / 空間內事件次數
E=λ,Var=λ(兩者相等)
適用條件:獨立、發生率固定、與時長成正比

連續型分佈

常態(Normal)
鐘型對稱
中央極限定理(CLT):「樣本均值的分佈」會趨近常態
注意:不是「資料本身」會自動變常態
均勻(Uniform)
指數(Exponential)
等待時間 / 生存時間
無記憶性 Memoryless
E=1/λ
卡方(Chi-square)
自由度 k
應用:適配度、獨立性檢定
t 分佈、F 分佈
對數常態 / Weibull(可選)

分佈擬合與資料建模

確認資料型態(離散 / 連續)
選擇候選分佈
檢查獨立性與固定率假設

L22103 假設檢定與統計推論

統計推論兩大分支

參數估計
點估計(單一值)
區間估計(信賴區間 CI)
- 95% CI 解讀:重複抽樣下約 95% 區間涵蓋真實參數
- 注意:不是「真實參數有 95% 機率落在此區間」
假設檢定(看 §3 流程)

假設檢定五步驟

步驟 1:設定 H₀(虛無假設)/ H₁(對立假設)
雙尾 / 左尾 / 右尾
步驟 2:選擇檢定方法 + 統計量
步驟 3:決定顯著水準 α
α=0.05 普通
α=0.01 嚴格(藥物 / 安全)
α=0.10 探索
步驟 4:計算檢定統計量 + p 值
步驟 5:比較決策
p ≤ α → 拒絕 H₀
p > α → 無法拒絕(不等於 H₀ 為真)

兩種錯誤

型一錯誤(Type I, α)
誤拒 H₀(假警報)
例:無病誤判為有病
型二錯誤(Type II, β)
漏判(漏警報)
例:有病誤判為無病
檢定力(Power)= 1 − β

平均數的差異檢定

單樣本 t 檢定
樣本均值 vs 已知數值
獨立樣本 t 檢定
兩組獨立樣本均值差
Welch t(變異數不等)
配對樣本 t 檢定
同一群前後測量(差值)
ANOVA 變異數分析
三組以上獨立樣本均值差
事後 Tukey HSD

比例檢定

單樣本比例 Z 檢定
雙比例 Z 檢定
兩組良率 / 比例比較

類別變數

卡方獨立性檢定
兩類別變數是否相關
卡方適配度檢定
觀察分佈 vs 預期分佈

相關性

皮爾森 r(Pearson)
線性、需常態
範圍 −1 至 +1
斯皮爾曼 ρs(Spearman)
順序型、單調關係

非參數檢定

Mann-Whitney U(獨立樣本)
Wilcoxon Signed-Rank(配對)
Kruskal-Wallis(三組以上)
Friedman(配對三組以上)

多重比較

Bonferroni 校正(α / m)
FDR(False Discovery Rate)
p 值膨脹(大樣本下顯著性過敏)

L222 大數據處理技術

L22201 數據收集與清理

5V 特性

Volume(規模)
Variety(型態多樣)
Velocity(速度)
Veracity(真實性 / 品質)
Value(價值密度)

資料來源

結構化(資料庫、CSV、Parquet)
半結構化(JSON、XML、Avro、Log)
非結構化(影像、語音、文字)
IoT(MQTT、Kafka)
API(REST、GraphQL)
爬蟲、開放資料平台

資料品質五類問題

缺失值(Missing)
MCAR 完全隨機
MAR 隨機(可由其他變數預測)
MNAR 非隨機(與該欄位本身相關,如高收入不填)
處理:填補(均值/中位/KNN)、刪除、保留
異常值(Outlier)
偵測:Z-score、IQR、Isolation Forest、LOF
處理:刪除、截尾、轉換、保留(具預測價值如詐欺)
重複值
一致性錯誤(單位 / 格式)
邏輯錯誤(年齡>120、負金額、體溫43°C)

L22202 數據儲存與管理

資料型態與儲存對應

結構化 → RDB / Data Warehouse
半結構化 → NoSQL / Document DB
非結構化 → Object Storage / Data Lake

NoSQL 類型

Key-Value(Redis、DynamoDB)
Document(MongoDB)
Column-family(Cassandra、HBase)
Graph(Neo4j、ArangoDB)
適合社群網路、推薦、知識圖譜

分散式儲存

HDFS(Hadoop)
副本(Replication)
冗餘
Failover
物件儲存(S3、MinIO)

三大資料架構

Data Warehouse 資料倉儲
Schema-on-Write
強結構、ACID
適核心交易
Data Lake 資料湖
Schema-on-Read
任意格式、彈性高
適原始資料保存
Data Lakehouse 資料湖倉(現代主流)
結合彈性 + 治理 + ACID
工具:Delta Lake、Apache Iceberg、Apache Hudi
雲端:AWS Lake Formation、Azure Data Lake、Google BigLake

ACID 四特性

Atomicity 原子性(全成功或全 Rollback)
Consistency 一致性(規則完整性)
Isolation 隔離性(並行)
Durability 持久性(已提交永久)

一致性策略

強一致性(交易 / 帳務)
最終一致性(社群 / 分析,提升可用性)
CAP 取捨(Consistency / Availability / Partition tolerance)

治理

Metadata 元資料管理
Data Catalog 資料目錄
Data Steward 資料管理員
版本控制
Time Travel(Delta Lake)
Incremental Query(Hudi)
Snapshot

權限模型

RBAC(角色為基)
ABAC(屬性為基)
DAC(自主存取)
Zero Trust 零信任
最小權限(Least Privilege)
即時授權(JIT Access)
持續驗證
微分段(Microsegmentation)

知識圖譜設計

RDF 三元組(Subject-Predicate-Object)
屬性圖(Node + Edge + Property)
互動屬性(時間戳記、裝置)→ 邊屬性

L22203 數據處理技術與工具

處理框架

Apache Hadoop(MapReduce + HDFS,批次)
Apache Spark(記憶體運算 RDD/DataFrame、迭代計算)
Apache Flink(低延遲串流、CEP)
Apache Beam(統一批次 + 串流抽象)

即時 / 串流

Kafka(訊息佇列)
Kinesis(AWS)
Pub/Sub(GCP)
Event Hub(Azure)
Spark Streaming
Flink

管線編排(ETL/ELT)

Apache Airflow
Prefect
Kubeflow Pipelines
Luigi

資料前處理

編碼(Encoding)
One-hot(無序、低基數)
Ordinal(有序)
Label Encoding(陷阱:無序資料會引入虛假順序)
Target Encoding(注意資料洩漏)
縮放(Scaling)
Min-Max(壓到 [0,1])
Z-score(均值 0、標準差 1,「不」會壓到 [0,1])
Robust Scaling(用中位數 + IQR,對極端值穩健)
分箱(Binning)
等寬 / 等頻 / K-means
特徵衍生
例:銷售金額 / 瀏覽次數 → 單次轉換金額

L223 大數據分析方法與工具

L22301 統計學在大數據中的應用

大數據統計挑戰

即時計算限制
結構性偏誤(資料來源非隨機)
p 值膨脹(大樣本下顯著性過敏)
多重檢定 → 偽陽性風險升高
母體界線模糊
資源限制(Bootstrap、Bayesian 計算成本高)

應對策略

配合效果量(Effect Size)
Bonferroni / FDR 校正
近似演算法(下節)

L22302 常見的大數據分析方法

近似演算法(大數據三大代表)

HyperLogLog(基數估計;不重複數)
Count-Min Sketch(高頻項估計;Top-K)
Welford's Method(線上均值 / 變異數)
t-digest(近似分位數)
Reservoir Sampling

時序分析

Moving Average / EMA
ARIMA(殘差需白噪音;ACF 自相關函數)
殘差非隨機 → 配適不足
Prophet(Meta;季節性 + 節慶 + 缺失值穩健)
LSTM / Transformer(深度時序)
工具:Spark MLlib、TimescaleDB、Meta Kats

圖網路分析

中心性
Degree(連結數)
Betweenness(橋樑)
Closeness(快速傳播)
Eigenvector / PageRank(影響力)
社群偵測(Louvain、Modularity)
圖嵌入(Node2Vec、GraphSAGE)
工具:GraphX、Neo4j、NetworkX、iGraph、Gephi

文字分析

預處理:斷詞、TF-IDF
詞嵌入:Word2Vec、GloVe、FastText、BERT
主題模型:LDA(Latent Dirichlet Allocation)
任務:NER、情感分析、分類
工具:Spark NLP、spaCy、Hugging Face、Gensim

地理空間分析

資料型態:點 / 線 / 面
空間特性
空間異質性
空間自相關(鄰近商店銷售互相影響)
方法
熱點分析:KDE、Getis-Ord Gi*
自相關:Moran's I
內插:IDW、Kriging
地理加權迴歸(GWR)
工具:PostGIS、Apache Sedona(GeoSpark)、GeoPandas

異常偵測

Isolation Forest
One-Class SVM
Autoencoder(重建誤差)
LOF(Local Outlier Factor)

關聯規則

Apriori 演算法
Apriori 性質(反單調性)
三指標
Support(共現比例)
Confidence(條件機率)
Lift(>1 為正向關聯)

L22303 數據可視化工具

數值型分佈呈現

直方圖(Histogram)
KDE 曲線(平滑分佈)
箱型圖(分佈 + 異常值)

多變數關聯

散佈圖
散佈圖矩陣
相關係數矩陣 + 熱力圖

類別型呈現

長條圖(類別比較)
圓餅圖(比例;類別<6)
堆疊長條圖

設計原則(Edward Tufte)

數據密度(Data Density)
同圖整合多區域 + 顏色區分
以閱讀者為中心
圖表類型符合資料
簡化資訊、去除冗餘
合理用色
支援互動探索

工具分類

工具內建報表
Excel、Google Sheets
自行搭建
Python:Matplotlib、Seaborn、Plotly
JS:D3.js、Chart.js
半商業化
Apache Superset、Metabase、Redash
商業 BI
Tableau、Power BI、Looker、Qlik
即時監控
Grafana(時序 + InfluxDB)
Kibana(Elasticsearch)

L224 大數據在 AI 之應用

L22401 大數據與機器學習

大數據 5V 對 ML 流程的影響

Volume → 分散式訓練、抽樣
Variety → 多模態 + 統一資料平台
Velocity → 線上 / 增量學習
Veracity → 資料品質管理 + 漂移偵測
Value → 特徵選擇 + 主動學習

訓練效能加速

硬體
GPU / TPU
分散式訓練
Data Parallel
Model Parallel
訓練優化
混合精度訓練(Mixed Precision FP16+FP32)
梯度累積(Gradient Accumulation)
梯度壓縮(Top-k Sparsification、Quantization)
Early Stopping
Checkpointing
Data Sharding(GPU 不足對策)

即時 ML

平台:Kafka + Flink + Spark Streaming
Online Learning(SGDClassifier、Vowpal Wabbit、River)
Incremental Learning
部署:Model Switching、Canary Release

漂移偵測

工具:Evidently、WhyLabs
統計方法:KS test、KL Divergence、PSI

L22402 大數據在鑑別式 AI 中的應用

任務情境

詐欺偵測
顧客流失預測
醫療診斷
設備故障預測
信用評分

模型選用

結構化:RF / XGBoost / LightGBM / Logistic Regression
影像:CNN / ResNet
時序:LSTM / Transformer
多模態:CLIP + BERT 融合

標註策略

人工標註(高品質、高成本)
半自動標註(規則 + 校正)
群眾外包(MTurk、Appen)
主動學習(模型挑值得標的)

L22403 大數據在生成式 AI 中的應用

資料品質四要素

多樣性(模態 / 風格 / 主題)
代表性(避免文化 / 性別偏誤)
高品質(無雜訊、無低品質樣本)
時效性(隨環境更新)

應用情境

語言生成(客服、文案、程式碼)
圖像生成(廣告、設計、虛擬偶像)
多模態(文字轉圖、圖文問答)
資料增強(模擬數據)

偏誤類型

性別與族群偏誤
地區與文化偏誤
時效性偏誤

L22404 大數據隱私保護、安全與合規

個資識別

直接識別資訊(PII):姓名、Email、身分證
準識別資訊(Quasi-Identifiers):出生日期、郵遞區號
間接識別資訊:Cookie、IP、地理定位

敏感度層級

一般資料
機密資料
個人資料
高度敏感個資(健康、財務、政治)

PIA 隱私影響評估

資料流盤點 → 風險辨識 → 影響分析 → 緩解 → 持續監督

PETs(隱私強化技術)

基礎匿名化
Masking 遮蔽(王○○)
Hashing 雜湊(SHA-256)
Generalization 泛化(地址→台北市)
Suppression 抑制
Pseudonymization 偽匿名化
進階技術
k-匿名(K-Anonymity)
- 至少 k−1 筆其他紀錄具相同準識別組合
l-多樣性(L-Diversity)
t-接近性(T-Closeness)
隨機擾動(Noise Injection)
差分隱私(Differential Privacy;DP-SGD;ε)
聯邦學習(Federated Learning;不傳原始資料)
同態加密(Homomorphic Encryption;FHE/PHE)
- 加密狀態下可進行數值運算
安全多方計算(MPC)
數位簽章

法規對照

GDPR(歐盟)
CCPA(美加州)
PDPA(台灣)
HIPAA(美國醫療)
PCI-DSS(支付卡產業)

合法依據

明確同意
契約必要
公共利益 / 學術研究
非個人資料(經匿名化)

隱私技術組合(高頻考點)

不共享原始資料 → MPC / 聯邦
平台不解密 → 同態加密
傳輸完整性 → 雜湊 + 對稱加密
結果加噪 → 差分隱私