隨機森林

中文名稱:隨機森林 英文名稱:Random Forest

定義(Definition)

隨機森林是一種由多棵隨機選擇的決策樹組成的模型(集成學習方法)。它透過投票來決定分類結果,或是取平均來進行回歸。這種方法利用隨機性來降低過擬合的風險,從而提高模型的穩定性和準確性。

原理與技術

隨機森林結合了兩個主要技術:Bagging 和 隨機特徵選擇

  • Bagging:每棵樹使用一種叫做 Bootstrap 的方法來抽樣,這樣可以降低對單一資料的依賴。
    • Bootstrap 是一種統計技術,用於從原始資料集中隨機抽樣生成多個訓練子集。這些子集是通過有放回的抽樣方法創建的,這意味著每次抽樣後,樣本會被放回原始資料集中,因此同一個樣本可能會被多次選中。
    • 在隨機森林中,Bootstrap 用於生成每棵決策樹的訓練資料集。這樣做的目的是降低對單一資料的依賴,增加模型的多樣性,從而提高模型的穩定性和準確性。
  • 隨機特徵選擇:在每個節點分裂時,隨機選擇一部分特徵,這樣可以防止所有樹都選擇相同的特徵,從而增加多樣性。
  • 最終的分類結果是通過多數決投票決定的,而回歸結果則是取平均值。這樣可以降低模型的方差,增加穩定性。

參數重點

  • 樹的數量 (n_estimators):樹越多,模型越穩定,但計算成本也會增加。
  • 最大深度和最小樣本數:這些參數用來控制過擬合。
  • max_features:決定每次分裂時使用的特徵數量。

優點與缺點

  • 優點:隨機森林抗過擬合能力強,能處理非線性和混合型特徵,對缺失值也比較穩定。
  • 缺點:相比單棵樹,隨機森林的可解釋性較低,對於極高維度的稀疏資料效果較差,模型體積較大。

特徵重要性

隨機森林可以用來了解哪些特徵對模型貢獻最大。如果需要更強的表現,可以考慮使用梯度提升樹(如 GBDT、XGBoost、LightGBM),但要注意過擬合和參數調整。

應用領域

  • 信用風險與詐欺偵測:隨機森林的穩定性高,對異常值敏感,適合用於合規評估。
  • 醫療與生物資訊:在中小樣本和高維特徵的情境下,用於分類疾病亞型或預測預後。
  • 製造與品質:利用感測器和檢驗特徵來預測不良品,抗雜訊能力強。
  • 行銷與客群預測:用於預測客戶流失或購買傾向,並提供重要特徵以支持決策。
  • 特徵篩選:利用特徵重要性進行初步篩選,然後再使用其他模型。

共通重點

  • 設定好深度和樣本數以避免過擬合。
  • 樹的數量需要在性能和效能之間取得平衡。
  • 當資料不平衡時,可以調整類別權重或進行重採樣。

3 題模擬練習題

  1. 隨機森林降低過擬合的關鍵?
    • A. 刪掉特徵
    • B. Bagging 抽樣 + 節點隨機特徵,讓樹彼此多樣
    • C. 只有一棵樹
    • D. 不用投票
    • 正確答案:B;解析:多樣性讓平均後的模型方差下降。
  2. 分類輸出的集成方式?
    • A. 平均值
    • B. 多數決投票
    • C. 取最大特徵
    • D. 隨機挑一棵樹
    • 正確答案:B;解析:分類用票數決定最終類別,回歸才用平均。
  3. 樹數量非常大會怎樣?
    • A. 一定更準且無成本
    • B. 準確率可能趨於飽和但計算與記憶體成本上升
    • C. 自動變成深度學習
    • D. 失去隨機性
    • 正確答案:B;解析:增加樹到一定程度邊際收益降低,但成本持續增加。