機器學習

中文名稱：機器學習英文名稱：Machine Learning

定義（Definition）

讓電腦透過資料自動找出規律並做出預測或決策等多種應用，而非由工程師手寫所有規則，包含監督式、非監督式、(半監督)、強化學習等分支。

原理與技術

主要類型：

監督式學習（Supervised learning）
- 透過帶有標記（Labeled Data）的訓練數據來訓練模型
- 主要應用於分類（Classification）與迴歸（Regression）
- 常用指標 Accuracy / F1 / AUC / MSE。
- 需注意資料分割、交叉驗證、過擬合。
- 分類模型
  - 目標為「如何將輸入數據分配至不同類別」
  - 支援向量機SVM、貝式分類
  - 例如垃圾郵件過濾（辨別郵件是否為垃圾郵件）、影像識別（辨識圖片中的物件類別）。
- 迴歸模型
  - 目標為「學習輸入變數與連續數值之間的映射關係」
  - 例如房價預測（根據房屋特徵預測價格）、銷售額預測（根據市場數據預測未來銷售）。
**非監督式學習（Unsupervised Learning）
- 無需使用事先標記好的訓練數據
- 聚類/分群（Clustering）、降維
- K-Means、資料探索、特徵提取、數據降維（PCA 、t-SNE）、異常偵測（Isolation Forest）、推薦系統、市場區隔分析。
半監督/自監督：少量標籤搭配大量無標籤，或用遮罩/對比任務預訓練再微調。
**強化學習（Reinforcement Learning, RL）
- 基於「回饋（反饋）機制」的學習方法，透過評分機制與獎勵措施的制定，讓人工智慧進行自我評估並朝獲取最大獎勵的方向進行學習。
- 讓代理（Agent） 透過與環境的互動，學習如何選擇最佳行動策略，以獲得最大的累積獎勵。
- 適合用於需要「試錯學習（Trial-and-Error）」和「長期規劃」的任務，例如遊戲 AI、機器人控制和自動駕駛等領域。

訓練技巧

標準化/正規化 保持數值穩定
特徵選擇/交互特徵 提升表現；正規化( L1/L2/Dropout ) 與早停(Early Stopping) 防過擬合；模型解釋(SHAP/LIME) 確認重要特徵；資料不平衡 可用重取樣或調權重。部署需考慮 延遲、資源、漂移監控，定期重訓或 A/B 測試。資料與模型治理包含 隱私、偏見、版本控管、審計紀錄。

步驟

核心流程： 收集資料→數據處理→特徵工程/向量化→選模型→訓練→評估→部署→監控。

準備訓練資料：包含資料的蒐集、過濾雜訊及前處理
1. 數據處理：數據清洗、數據轉換 (數據標準化如 Z-score)
2. 特徵選擇與降維 (如 PCA )
訓練模型：將前項準備好的訓練資料輸入演算法中，並適度調整參數，使模型儘量符合資料之模式或分佈
1. 一個訓練 loop 的步驟：
  1. 初始權重值(用亂數初始每一層)
  2. 正向傳播計算預測值 (Forward Propagation)
  3. 評估預測值與實際值誤差的損失(使用損失函數(Loss Function))
  4. 使用反向傳播計算更新權重的比例 (Backward Propagation)
  5. 更新權重進行下一次訓練(使用梯度下降更新權重後，即可使用新參數進行下一次訓練)
2. 優化演算法：調整參數以最小化損失函數，常見方法為梯度下降法（Gradient Descent）
3. 防範過擬合（Overfitting）
測試及評估模型：測試並評估該模型的效能，並反覆訓練之；經多次調校仍不佳時，或許選用其他模型再重覆前述流程。 ^d7d909
1. 效能評估指標：準確率、F1分數、MSE
2. 交叉驗證
3. 模型調參：調整超參數
  1. 網格搜索（Grid Search）：在預定範圍內逐一嘗試超參數組合。
  2. 隨機搜索（Random Search）：隨機選擇超參數進行測試，適合高維度的參數空間。
  3. 貝葉斯優化（Bayesian Optimization）：透過構建代理模型，根據歷史結果逐步尋找最優參數。

過擬合與欠擬合

應用領域

商業預測：銷售、需求、庫存，常用回歸或時間序列模型。
風控與詐欺偵測：信用評分、交易異常偵測，需強調召回與合規解釋。
推薦系統：協同過濾、深度推薦模型，提升點擊與轉換。
自然語言與影像：文本分類、OCR、影像辨識；多用深度學習。
工業與醫療：設備預後、品質檢測、疾病預測，需資料安全與驗證。共通重點：資料品質與特徵工程往往決定上限；模型選型與評估需對齊業務指標；上線後要有 監控與回饋迴路 以防漂移或性能衰退。

3 題模擬練習題

監督式學習與非監督式學習差異？
- A. 是否有 GPU
- B. 是否有標籤（監督有標籤，非監督無標籤）
- C. 是否用 Python
- D. 是否可部署
- 正確答案：B；解析：核心在於訓練資料是否提供正確答案。
避免過擬合常用？
- A. 只看訓練集
- B. 早停、正規化、交叉驗證、增加資料
- C. 無上限增加層數
- D. 刪除驗證集
- 正確答案：B；解析：這些方法能提高泛化，其他做法反而風險更高。
為何上線後仍需監控模型？
- A. 為了好玩
- B. 資料分布可能漂移，性能會變差，需要重訓或調整
- C. 模型會自己壞掉
- D. 沒有必要
- 正確答案：B；解析：環境與用戶行為會變，監控能及早發現性能下降並回訓。

KBP的AI應用規劃師筆記

探索

機器學習 (Machine Learning)

機器學習

定義（Definition）

原理與技術

主要類型：

訓練技巧

步驟

過擬合與欠擬合

應用領域

3 題模擬練習題

關係圖譜

目錄

反向連結

KBP的AI應用規劃師筆記

探索

機器學習 (Machine Learning)

機器學習

定義（Definition）

原理與技術

主要類型 ：

訓練技巧

步驟

過擬合與欠擬合

應用領域

3 題模擬練習題

關係圖譜

目錄

反向連結

主要類型：