隨機森林
中文名稱:隨機森林 英文名稱:Random Forest
定義(Definition)
隨機森林是一種由多棵隨機選擇的決策樹組成的模型(集成學習方法)。它透過投票來決定分類結果,或是取平均來進行回歸。這種方法利用隨機性來降低過擬合的風險,從而提高模型的穩定性和準確性。
原理與技術
隨機森林結合了兩個主要技術:Bagging 和 隨機特徵選擇。
- Bagging:每棵樹使用一種叫做 Bootstrap 的方法來抽樣,這樣可以降低對單一資料的依賴。
- Bootstrap 是一種統計技術,用於從原始資料集中隨機抽樣生成多個訓練子集。這些子集是通過有放回的抽樣方法創建的,這意味著每次抽樣後,樣本會被放回原始資料集中,因此同一個樣本可能會被多次選中。
- 在隨機森林中,Bootstrap 用於生成每棵決策樹的訓練資料集。這樣做的目的是降低對單一資料的依賴,增加模型的多樣性,從而提高模型的穩定性和準確性。
- 隨機特徵選擇:在每個節點分裂時,隨機選擇一部分特徵,這樣可以防止所有樹都選擇相同的特徵,從而增加多樣性。
- 最終的分類結果是通過多數決投票決定的,而回歸結果則是取平均值。這樣可以降低模型的方差,增加穩定性。
參數重點
- 樹的數量 (n_estimators):樹越多,模型越穩定,但計算成本也會增加。
- 最大深度和最小樣本數:這些參數用來控制過擬合。
- max_features:決定每次分裂時使用的特徵數量。
優點與缺點
- 優點:隨機森林抗過擬合能力強,能處理非線性和混合型特徵,對缺失值也比較穩定。
- 缺點:相比單棵樹,隨機森林的可解釋性較低,對於極高維度的稀疏資料效果較差,模型體積較大。
特徵重要性
隨機森林可以用來了解哪些特徵對模型貢獻最大。如果需要更強的表現,可以考慮使用梯度提升樹(如 GBDT、XGBoost、LightGBM),但要注意過擬合和參數調整。
應用領域
- 信用風險與詐欺偵測:隨機森林的穩定性高,對異常值敏感,適合用於合規評估。
- 醫療與生物資訊:在中小樣本和高維特徵的情境下,用於分類疾病亞型或預測預後。
- 製造與品質:利用感測器和檢驗特徵來預測不良品,抗雜訊能力強。
- 行銷與客群預測:用於預測客戶流失或購買傾向,並提供重要特徵以支持決策。
- 特徵篩選:利用特徵重要性進行初步篩選,然後再使用其他模型。
共通重點
- 設定好深度和樣本數以避免過擬合。
- 樹的數量需要在性能和效能之間取得平衡。
- 當資料不平衡時,可以調整類別權重或進行重採樣。
3 題模擬練習題
- 隨機森林降低過擬合的關鍵?
- A. 刪掉特徵
- B. Bagging 抽樣 + 節點隨機特徵,讓樹彼此多樣
- C. 只有一棵樹
- D. 不用投票
- 正確答案:B;解析:多樣性讓平均後的模型方差下降。
- 分類輸出的集成方式?
- A. 平均值
- B. 多數決投票
- C. 取最大特徵
- D. 隨機挑一棵樹
- 正確答案:B;解析:分類用票數決定最終類別,回歸才用平均。
- 樹數量非常大會怎樣?
- A. 一定更準且無成本
- B. 準確率可能趨於飽和但計算與記憶體成本上升
- C. 自動變成深度學習
- D. 失去隨機性
- 正確答案:B;解析:增加樹到一定程度邊際收益降低,但成本持續增加。