機器學習

中文名稱:機器學習 英文名稱:Machine Learning

定義(Definition)

讓電腦透過資料自動找出規律並做出預測或決策等多種應用,而非由工程師手寫所有規則,包含監督式、非監督式、(半監督)、強化學習等分支。

原理與技術

主要類型 :

  • 監督式學習(Supervised learning)
    • 透過帶有標記(Labeled Data)的訓練數據來訓練模型
    • 主要應用於分類(Classification)與迴歸(Regression)
    • 常用指標 Accuracy / F1 / AUC / MSE。
    • 需注意資料分割、交叉驗證過擬合
    • 分類模型
      • 目標為「如何將輸入數據分配至不同類別」
      • 支援向量機SVM貝式分類
      • 例如垃圾郵件過濾(辨別郵件是否為垃圾郵件)、影像識別(辨識圖片中的物件類別)。
    • 迴歸模型
      • 目標為「學習輸入變數與連續數值之間的映射關係」
      • 例如房價預測(根據房屋特徵預測價格)、銷售額預測(根據市場數據預測未來銷售)。
  • **非監督式學習(Unsupervised Learning)
    • 無需使用事先標記好的訓練數據
    • 聚類/分群(Clustering)、降維
    • K-Means、資料探索、特徵提取、數據降維(PCA 、t-SNE)、異常偵測(Isolation Forest)、推薦系統、市場區隔分析。
  • 半監督/自監督:少量標籤搭配大量無標籤,或用遮罩/對比任務預訓練再微調。
  • **強化學習(Reinforcement Learning, RL)
    • 基於「回饋(反饋)機制」的學習方法,透過評分機制與獎勵措施的制定,讓人工智慧進行自我評估並朝獲取最大獎勵的方向進行學習。
    • 代理(Agent) 透過與環境的互動,學習如何選擇最佳行動策略,以獲得最大的累積獎勵
    • 適合用於需要「試錯學習(Trial-and-Error)」和「長期規劃」的任務,例如遊戲 AI、 機器人控制和自動駕駛等領域。

訓練技巧

  • 標準化/正規化 保持數值穩定
  • 特徵選擇/交互特徵 提升表現;正規化( L1/L2/Dropout )早停(Early Stopping) 防過擬合;模型解釋(SHAP/LIME) 確認重要特徵;資料不平衡 可用重取樣或調權重。部署需考慮 延遲、資源、漂移監控,定期重訓或 A/B 測試。資料與模型治理包含 隱私、偏見、版本控管、審計紀錄

步驟

核心流程: 收集資料→數據處理→特徵工程/向量化→選模型→訓練→評估→部署→監控

  1. 準備訓練資料:包含資料的蒐集、過濾雜訊及前處理
    1. 數據處理:數據清洗數據轉換 (數據標準化如 Z-score)
    2. 特徵選擇與降維 (如 PCA )
  2. 訓練模型:將前項準備好的訓練資料輸入演算法中,並適度調整參數,使模型儘量符合資料之模式或分佈
    1. 一個訓練 loop 的步驟:
      1. 初始權重值(用亂數初始每一層)
      2. 正向傳播計算預測值 (Forward Propagation)
      3. 評估預測值與實際值誤差的損失(使用損失函數(Loss Function))
      4. 使用反向傳播計算更新權重的比例 (Backward Propagation)
      5. 更新權重進行下一次訓練(使用梯度下降更新權重後,即可使用新參數進行下一次訓練)
    2. 優化演算法:調整參數以最小化損失函數,常見方法為梯度下降法(Gradient Descent)
    3. 防範過擬合(Overfitting)
  3. 測試及評估模型:測試並評估該模型的效能,並反覆訓練之;經多次調校仍不佳時,或許選用其他模型再重覆前述流程。 ^d7d909
    1. 效能評估指標:準確率、F1分數、MSE
    2. 交叉驗證
    3. 模型調參:調整超參數
      1. 網格搜索(Grid Search):在預定範圍內逐一嘗試超參數組合。
      2. 隨機搜索(Random Search):隨機選擇超參數進行測試,適合高維度的參數空間。
      3. 貝葉斯優化(Bayesian Optimization):透過構建代理模型,根據歷史結果逐步尋找最優參數。

過擬合與欠擬合

應用領域

  • 商業預測:銷售、需求、庫存,常用回歸或時間序列模型。
  • 風控與詐欺偵測:信用評分、交易異常偵測,需強調召回與合規解釋。
  • 推薦系統:協同過濾、深度推薦模型,提升點擊與轉換。
  • 自然語言與影像:文本分類、OCR、影像辨識;多用深度學習。
  • 工業與醫療:設備預後、品質檢測、疾病預測,需資料安全與驗證。 共通重點:資料品質與特徵工程往往決定上限;模型選型與評估需對齊業務指標;上線後要有 監控與回饋迴路 以防漂移或性能衰退。

3 題模擬練習題

  1. 監督式學習與非監督式學習差異?
    • A. 是否有 GPU
    • B. 是否有標籤(監督有標籤,非監督無標籤)
    • C. 是否用 Python
    • D. 是否可部署
    • 正確答案:B;解析:核心在於訓練資料是否提供正確答案。
  2. 避免過擬合常用?
    • A. 只看訓練集
    • B. 早停、正規化、交叉驗證、增加資料
    • C. 無上限增加層數
    • D. 刪除驗證集
    • 正確答案:B;解析:這些方法能提高泛化,其他做法反而風險更高。
  3. 為何上線後仍需監控模型?
    • A. 為了好玩
    • B. 資料分布可能漂移,性能會變差,需要重訓或調整
    • C. 模型會自己壞掉
    • D. 沒有必要
    • 正確答案:B;解析:環境與用戶行為會變,監控能及早發現性能下降並回訓。