機器學習
中文名稱:機器學習 英文名稱:Machine Learning
定義(Definition)
讓電腦透過資料自動找出規律並做出預測或決策等多種應用,而非由工程師手寫所有規則,包含監督式、非監督式、(半監督)、強化學習等分支。
原理與技術
主要類型 :
- 監督式學習(Supervised learning)
- **非監督式學習(Unsupervised Learning)
- 半監督/自監督:少量標籤搭配大量無標籤,或用遮罩/對比任務預訓練再微調。
- **強化學習(Reinforcement Learning, RL)
- 基於「回饋(反饋)機制」的學習方法,透過評分機制與獎勵措施的制定,讓人工智慧進行自我評估並朝獲取最大獎勵的方向進行學習。
- 讓代理(Agent) 透過與環境的互動,學習如何選擇最佳行動策略,以獲得最大的累積獎勵。
- 適合用於需要「試錯學習(Trial-and-Error)」和「長期規劃」的任務,例如遊戲 AI、 機器人控制和自動駕駛等領域。
訓練技巧
- 標準化/正規化 保持數值穩定
- 特徵選擇/交互特徵 提升表現;正規化( L1/L2/Dropout ) 與 早停(Early Stopping) 防過擬合;模型解釋(SHAP/LIME) 確認重要特徵;資料不平衡 可用重取樣或調權重。部署需考慮 延遲、資源、漂移監控,定期重訓或 A/B 測試。資料與模型治理包含 隱私、偏見、版本控管、審計紀錄。
步驟
核心流程: 收集資料→數據處理→特徵工程/向量化→選模型→訓練→評估→部署→監控。
- 準備訓練資料:包含資料的蒐集、過濾雜訊及前處理
- 訓練模型:將前項準備好的訓練資料輸入演算法中,並適度調整參數,使模型儘量符合資料之模式或分佈
- 一個訓練 loop 的步驟:
- 初始權重值(用亂數初始每一層)
- 正向傳播計算預測值 (Forward Propagation)
- 評估預測值與實際值誤差的損失(使用損失函數(Loss Function))
- 使用反向傳播計算更新權重的比例 (Backward Propagation)
- 更新權重進行下一次訓練(使用梯度下降更新權重後,即可使用新參數進行下一次訓練)
- 優化演算法:調整參數以最小化損失函數,常見方法為梯度下降法(Gradient Descent)
- 防範過擬合(Overfitting)
- 一個訓練 loop 的步驟:
- 測試及評估模型:測試並評估該模型的效能,並反覆訓練之;經多次調校仍不佳時,或許選用其他模型再重覆前述流程。 ^d7d909
過擬合與欠擬合
應用領域
- 商業預測:銷售、需求、庫存,常用回歸或時間序列模型。
- 風控與詐欺偵測:信用評分、交易異常偵測,需強調召回與合規解釋。
- 推薦系統:協同過濾、深度推薦模型,提升點擊與轉換。
- 自然語言與影像:文本分類、OCR、影像辨識;多用深度學習。
- 工業與醫療:設備預後、品質檢測、疾病預測,需資料安全與驗證。 共通重點:資料品質與特徵工程往往決定上限;模型選型與評估需對齊業務指標;上線後要有 監控與回饋迴路 以防漂移或性能衰退。
3 題模擬練習題
- 監督式學習與非監督式學習差異?
- A. 是否有 GPU
- B. 是否有標籤(監督有標籤,非監督無標籤)
- C. 是否用 Python
- D. 是否可部署
- 正確答案:B;解析:核心在於訓練資料是否提供正確答案。
- 避免過擬合常用?
- A. 只看訓練集
- B. 早停、正規化、交叉驗證、增加資料
- C. 無上限增加層數
- D. 刪除驗證集
- 正確答案:B;解析:這些方法能提高泛化,其他做法反而風險更高。
- 為何上線後仍需監控模型?
- A. 為了好玩
- B. 資料分布可能漂移,性能會變差,需要重訓或調整
- C. 模型會自己壞掉
- D. 沒有必要
- 正確答案:B;解析:環境與用戶行為會變,監控能及早發現性能下降並回訓。