科目二 大數據處理分析與應用(L22)
L221 機率統計基礎
L22101 敘述性統計與資料摘要技術
集中趨勢(三均數 + 眾數 + 中位數)
- 算術平均(Arithmetic Mean)
- 對極端值敏感
- 適用對稱分佈
- 幾何平均(Geometric Mean)
- 適成長率、報酬率(乘積效應)
- 限制:資料須為正
- 調和平均(Harmonic Mean)
- 適速率 / 效率
- 限制:不能為 0 或負
- 眾數(Mode)
- 出現頻率最高
- 適類別資料
- 中位數(Median)
- 對極端值不敏感
- 適長尾、收入、房價
離散程度
- 變異數 Variance / 標準差 SD
- 對極端值敏感
- 全距 Range(最大 − 最小)
- 四分位距 IQR = Q3 − Q1
- 四分位數 Q1 / Q2(中位數)/ Q3
- 箱形圖 Box Plot
- 中位數線 + Q1/Q3 盒
- 上鬚:Q3 + 1.5×IQR
- 重點:不等於最大值,僅含「不含離群值」最大
- 下鬚:Q1 − 1.5×IQR
- 離群值:超出鬚範圍以點 / 星標出
分佈形狀
- 偏度 Skewness
-
0 右偏(正偏):平均 > 中位數,如收入、房價
- <0 左偏(負偏):平均 < 中位數
- ≈0:對稱(常態)
- 峰度 Kurtosis(Pearson 標準=3)
-
3 高峰 Leptokurtic(極端值多)
- =3 中峰 Mesokurtic(常態)
- <3 扁平 Platykurtic
Z-score 標準化
- 公式:Z = (x − μ) / σ
- |Z| ≥ 3 通常視為異常值
- Z=2:離平均 2 個標準差
pandas 速查
.describe()(一次回傳 8 項).isna() / .isnull()(等價).fillna().astype('Int64')(支援 NA 整數).groupby().sum/mean/count().nlargest(n)
L22102 機率分佈與資料分佈模型
重要數值
- 期望值 E(X)
- 變異數 Var(X)
- 標準差 σ = √Var(X)
函數類型
- PMF(機率質量函數)— 離散
- PDF(機率密度函數)— 連續
- 在某點「值」非機率,需積分得區間
- CDF(累積分佈函數)
- 連續 = PDF 積分
- 離散 = PMF 累加
離散型分佈
- 伯努利(Bernoulli)
- 單次試驗,X ∈ {0,1}
- E=p,Var=p(1−p)
- 二項(Binomial)
- n 次獨立試驗成功次數
- E=np,Var=np(1−p)
- 常態近似條件:np>5 且 n(1−p)>5
- 泊松 / 卜瓦松(Poisson)
- 固定時間 / 空間內事件次數
- E=λ,Var=λ(兩者相等)
- 適用條件:獨立、發生率固定、與時長成正比
連續型分佈
- 常態(Normal)
- 鐘型對稱
- 中央極限定理(CLT):「樣本均值的分佈」會趨近常態
- 注意:不是「資料本身」會自動變常態
- 均勻(Uniform)
- 指數(Exponential)
- 等待時間 / 生存時間
- 無記憶性 Memoryless
- E=1/λ
- 卡方(Chi-square)
- 自由度 k
- 應用:適配度、獨立性檢定
- t 分佈、F 分佈
- 對數常態 / Weibull(可選)
分佈擬合與資料建模
- 確認資料型態(離散 / 連續)
- 選擇候選分佈
- 檢查獨立性與固定率假設
L22103 假設檢定與統計推論
統計推論兩大分支
- 參數估計
- 點估計(單一值)
- 區間估計(信賴區間 CI)
- 95% CI 解讀:重複抽樣下約 95% 區間涵蓋真實參數
- 注意:不是「真實參數有 95% 機率落在此區間」
- 假設檢定(看 §3 流程)
假設檢定五步驟
- 步驟 1:設定 H₀(虛無假設)/ H₁(對立假設)
- 雙尾 / 左尾 / 右尾
- 步驟 2:選擇檢定方法 + 統計量
- 步驟 3:決定顯著水準 α
- α=0.05 普通
- α=0.01 嚴格(藥物 / 安全)
- α=0.10 探索
- 步驟 4:計算檢定統計量 + p 值
- 步驟 5:比較決策
- p ≤ α → 拒絕 H₀
- p > α → 無法拒絕(不等於 H₀ 為真)
兩種錯誤
- 型一錯誤(Type I, α)
- 誤拒 H₀(假警報)
- 例:無病誤判為有病
- 型二錯誤(Type II, β)
- 漏判(漏警報)
- 例:有病誤判為無病
- 檢定力(Power)= 1 − β
平均數的差異檢定
- 單樣本 t 檢定
- 樣本均值 vs 已知數值
- 獨立樣本 t 檢定
- 兩組獨立樣本均值差
- Welch t(變異數不等)
- 配對樣本 t 檢定
- 同一群前後測量(差值)
- ANOVA 變異數分析
- 三組以上獨立樣本均值差
- 事後 Tukey HSD
比例檢定
- 單樣本比例 Z 檢定
- 雙比例 Z 檢定
- 兩組良率 / 比例比較
類別變數
- 卡方獨立性檢定
- 兩類別變數是否相關
- 卡方適配度檢定
- 觀察分佈 vs 預期分佈
相關性
- 皮爾森 r(Pearson)
- 線性、需常態
- 範圍 −1 至 +1
- 斯皮爾曼 ρs(Spearman)
- 順序型、單調關係
非參數檢定
- Mann-Whitney U(獨立樣本)
- Wilcoxon Signed-Rank(配對)
- Kruskal-Wallis(三組以上)
- Friedman(配對三組以上)
多重比較
- Bonferroni 校正(α / m)
- FDR(False Discovery Rate)
- p 值膨脹(大樣本下顯著性過敏)
L222 大數據處理技術
L22201 數據收集與清理
5V 特性
- Volume(規模)
- Variety(型態多樣)
- Velocity(速度)
- Veracity(真實性 / 品質)
- Value(價值密度)
資料來源
- 結構化(資料庫、CSV、Parquet)
- 半結構化(JSON、XML、Avro、Log)
- 非結構化(影像、語音、文字)
- IoT(MQTT、Kafka)
- API(REST、GraphQL)
- 爬蟲、開放資料平台
資料品質五類問題
- 缺失值(Missing)
- MCAR 完全隨機
- MAR 隨機(可由其他變數預測)
- MNAR 非隨機(與該欄位本身相關,如高收入不填)
- 處理:填補(均值/中位/KNN)、刪除、保留
- 異常值(Outlier)
- 偵測:Z-score、IQR、Isolation Forest、LOF
- 處理:刪除、截尾、轉換、保留(具預測價值如詐欺)
- 重複值
- 一致性錯誤(單位 / 格式)
- 邏輯錯誤(年齡>120、負金額、體溫43°C)
L22202 數據儲存與管理
資料型態與儲存對應
- 結構化 → RDB / Data Warehouse
- 半結構化 → NoSQL / Document DB
- 非結構化 → Object Storage / Data Lake
NoSQL 類型
- Key-Value(Redis、DynamoDB)
- Document(MongoDB)
- Column-family(Cassandra、HBase)
- Graph(Neo4j、ArangoDB)
- 適合社群網路、推薦、知識圖譜
分散式儲存
- HDFS(Hadoop)
- 副本(Replication)
- 冗餘
- Failover
- 物件儲存(S3、MinIO)
三大資料架構
- Data Warehouse 資料倉儲
- Schema-on-Write
- 強結構、ACID
- 適核心交易
- Data Lake 資料湖
- Schema-on-Read
- 任意格式、彈性高
- 適原始資料保存
- Data Lakehouse 資料湖倉(現代主流)
- 結合彈性 + 治理 + ACID
- 工具:Delta Lake、Apache Iceberg、Apache Hudi
- 雲端:AWS Lake Formation、Azure Data Lake、Google BigLake
ACID 四特性
- Atomicity 原子性(全成功或全 Rollback)
- Consistency 一致性(規則完整性)
- Isolation 隔離性(並行)
- Durability 持久性(已提交永久)
一致性策略
- 強一致性(交易 / 帳務)
- 最終一致性(社群 / 分析,提升可用性)
- CAP 取捨(Consistency / Availability / Partition tolerance)
治理
- Metadata 元資料管理
- Data Catalog 資料目錄
- Data Steward 資料管理員
- 版本控制
- Time Travel(Delta Lake)
- Incremental Query(Hudi)
- Snapshot
權限模型
- RBAC(角色為基)
- ABAC(屬性為基)
- DAC(自主存取)
- Zero Trust 零信任
- 最小權限(Least Privilege)
- 即時授權(JIT Access)
- 持續驗證
- 微分段(Microsegmentation)
知識圖譜設計
- RDF 三元組(Subject-Predicate-Object)
- 屬性圖(Node + Edge + Property)
- 互動屬性(時間戳記、裝置)→ 邊屬性
L22203 數據處理技術與工具
處理框架
- Apache Hadoop(MapReduce + HDFS,批次)
- Apache Spark(記憶體運算 RDD/DataFrame、迭代計算)
- Apache Flink(低延遲串流、CEP)
- Apache Beam(統一批次 + 串流抽象)
即時 / 串流
- Kafka(訊息佇列)
- Kinesis(AWS)
- Pub/Sub(GCP)
- Event Hub(Azure)
- Spark Streaming
- Flink
管線編排(ETL/ELT)
- Apache Airflow
- Prefect
- Kubeflow Pipelines
- Luigi
資料前處理
- 編碼(Encoding)
- One-hot(無序、低基數)
- Ordinal(有序)
- Label Encoding(陷阱:無序資料會引入虛假順序)
- Target Encoding(注意資料洩漏)
- 縮放(Scaling)
- Min-Max(壓到 [0,1])
- Z-score(均值 0、標準差 1,「不」會壓到 [0,1])
- Robust Scaling(用中位數 + IQR,對極端值穩健)
- 分箱(Binning)
- 等寬 / 等頻 / K-means
- 特徵衍生
- 例:銷售金額 / 瀏覽次數 → 單次轉換金額
L223 大數據分析方法與工具
L22301 統計學在大數據中的應用
大數據統計挑戰
- 即時計算限制
- 結構性偏誤(資料來源非隨機)
- p 值膨脹(大樣本下顯著性過敏)
- 多重檢定 → 偽陽性風險升高
- 母體界線模糊
- 資源限制(Bootstrap、Bayesian 計算成本高)
應對策略
- 配合效果量(Effect Size)
- Bonferroni / FDR 校正
- 近似演算法(下節)
L22302 常見的大數據分析方法
近似演算法(大數據三大代表)
- HyperLogLog(基數估計;不重複數)
- Count-Min Sketch(高頻項估計;Top-K)
- Welford's Method(線上均值 / 變異數)
- t-digest(近似分位數)
- Reservoir Sampling
時序分析
- Moving Average / EMA
- ARIMA(殘差需白噪音;ACF 自相關函數)
- 殘差非隨機 → 配適不足
- Prophet(Meta;季節性 + 節慶 + 缺失值穩健)
- LSTM / Transformer(深度時序)
- 工具:Spark MLlib、TimescaleDB、Meta Kats
圖網路分析
- 中心性
- Degree(連結數)
- Betweenness(橋樑)
- Closeness(快速傳播)
- Eigenvector / PageRank(影響力)
- 社群偵測(Louvain、Modularity)
- 圖嵌入(Node2Vec、GraphSAGE)
- 工具:GraphX、Neo4j、NetworkX、iGraph、Gephi
文字分析
- 預處理:斷詞、TF-IDF
- 詞嵌入:Word2Vec、GloVe、FastText、BERT
- 主題模型:LDA(Latent Dirichlet Allocation)
- 任務:NER、情感分析、分類
- 工具:Spark NLP、spaCy、Hugging Face、Gensim
地理空間分析
- 資料型態:點 / 線 / 面
- 空間特性
- 空間異質性
- 空間自相關(鄰近商店銷售互相影響)
- 方法
- 熱點分析:KDE、Getis-Ord Gi*
- 自相關:Moran's I
- 內插:IDW、Kriging
- 地理加權迴歸(GWR)
- 工具:PostGIS、Apache Sedona(GeoSpark)、GeoPandas
異常偵測
- Isolation Forest
- One-Class SVM
- Autoencoder(重建誤差)
- LOF(Local Outlier Factor)
關聯規則
- Apriori 演算法
- Apriori 性質(反單調性)
- 三指標
- Support(共現比例)
- Confidence(條件機率)
- Lift(>1 為正向關聯)
L22303 數據可視化工具
數值型分佈呈現
- 直方圖(Histogram)
- KDE 曲線(平滑分佈)
- 箱型圖(分佈 + 異常值)
多變數關聯
- 散佈圖
- 散佈圖矩陣
- 相關係數矩陣 + 熱力圖
類別型呈現
- 長條圖(類別比較)
- 圓餅圖(比例;類別<6)
- 堆疊長條圖
設計原則(Edward Tufte)
- 數據密度(Data Density)
- 同圖整合多區域 + 顏色區分
- 以閱讀者為中心
- 圖表類型符合資料
- 簡化資訊、去除冗餘
- 合理用色
- 支援互動探索
工具分類
- 工具內建報表
- Excel、Google Sheets
- 自行搭建
- Python:Matplotlib、Seaborn、Plotly
- JS:D3.js、Chart.js
- 半商業化
- Apache Superset、Metabase、Redash
- 商業 BI
- Tableau、Power BI、Looker、Qlik
- 即時監控
- Grafana(時序 + InfluxDB)
- Kibana(Elasticsearch)
L224 大數據在 AI 之應用
L22401 大數據與機器學習
大數據 5V 對 ML 流程的影響
- Volume → 分散式訓練、抽樣
- Variety → 多模態 + 統一資料平台
- Velocity → 線上 / 增量學習
- Veracity → 資料品質管理 + 漂移偵測
- Value → 特徵選擇 + 主動學習
訓練效能加速
- 硬體
- GPU / TPU
- 分散式訓練
- Data Parallel
- Model Parallel
- 訓練優化
- 混合精度訓練(Mixed Precision FP16+FP32)
- 梯度累積(Gradient Accumulation)
- 梯度壓縮(Top-k Sparsification、Quantization)
- Early Stopping
- Checkpointing
- Data Sharding(GPU 不足對策)
即時 ML
- 平台:Kafka + Flink + Spark Streaming
- Online Learning(SGDClassifier、Vowpal Wabbit、River)
- Incremental Learning
- 部署:Model Switching、Canary Release
漂移偵測
- 工具:Evidently、WhyLabs
- 統計方法:KS test、KL Divergence、PSI
L22402 大數據在鑑別式 AI 中的應用
任務情境
- 詐欺偵測
- 顧客流失預測
- 醫療診斷
- 設備故障預測
- 信用評分
模型選用
- 結構化:RF / XGBoost / LightGBM / Logistic Regression
- 影像:CNN / ResNet
- 時序:LSTM / Transformer
- 多模態:CLIP + BERT 融合
標註策略
- 人工標註(高品質、高成本)
- 半自動標註(規則 + 校正)
- 群眾外包(MTurk、Appen)
- 主動學習(模型挑值得標的)
L22403 大數據在生成式 AI 中的應用
資料品質四要素
- 多樣性(模態 / 風格 / 主題)
- 代表性(避免文化 / 性別偏誤)
- 高品質(無雜訊、無低品質樣本)
- 時效性(隨環境更新)
應用情境
- 語言生成(客服、文案、程式碼)
- 圖像生成(廣告、設計、虛擬偶像)
- 多模態(文字轉圖、圖文問答)
- 資料增強(模擬數據)
偏誤類型
- 性別與族群偏誤
- 地區與文化偏誤
- 時效性偏誤
L22404 大數據隱私保護、安全與合規
個資識別
- 直接識別資訊(PII):姓名、Email、身分證
- 準識別資訊(Quasi-Identifiers):出生日期、郵遞區號
- 間接識別資訊:Cookie、IP、地理定位
敏感度層級
- 一般資料
- 機密資料
- 個人資料
- 高度敏感個資(健康、財務、政治)
PIA 隱私影響評估
- 資料流盤點 → 風險辨識 → 影響分析 → 緩解 → 持續監督
PETs(隱私強化技術)
- 基礎匿名化
- Masking 遮蔽(王○○)
- Hashing 雜湊(SHA-256)
- Generalization 泛化(地址→台北市)
- Suppression 抑制
- Pseudonymization 偽匿名化
- 進階技術
- k-匿名(K-Anonymity)
- 至少 k−1 筆其他紀錄具相同準識別組合
- l-多樣性(L-Diversity)
- t-接近性(T-Closeness)
- 隨機擾動(Noise Injection)
- 差分隱私(Differential Privacy;DP-SGD;ε)
- 聯邦學習(Federated Learning;不傳原始資料)
- 同態加密(Homomorphic Encryption;FHE/PHE)
- 加密狀態下可進行數值運算
- 安全多方計算(MPC)
- 數位簽章
法規對照
- GDPR(歐盟)
- CCPA(美加州)
- PDPA(台灣)
- HIPAA(美國醫療)
- PCI-DSS(支付卡產業)
合法依據
- 明確同意
- 契約必要
- 公共利益 / 學術研究
- 非個人資料(經匿名化)
隱私技術組合(高頻考點)
- 不共享原始資料 → MPC / 聯邦
- 平台不解密 → 同態加密
- 傳輸完整性 → 雜湊 + 對稱加密
- 結果加噪 → 差分隱私