KBP的AI應用規劃師筆記

❯

隨機森林（Random Forest）

隨機森林（Random Forest）

2025年12月06日閱讀時間約 6 分鐘

隨機森林

中文名稱：隨機森林英文名稱：Random Forest

定義（Definition）

隨機森林是一種由多棵隨機選擇的決策樹組成的模型(集成學習方法)。它透過投票來決定分類結果，或是取平均來進行回歸。這種方法利用隨機性來降低過擬合的風險，從而提高模型的穩定性和準確性。

原理與技術

隨機森林結合了兩個主要技術：Bagging 和 隨機特徵選擇。

Bagging：每棵樹使用一種叫做 Bootstrap 的方法來抽樣，這樣可以降低對單一資料的依賴。
- Bootstrap 是一種統計技術，用於從原始資料集中隨機抽樣生成多個訓練子集。這些子集是通過有放回的抽樣方法創建的，這意味著每次抽樣後，樣本會被放回原始資料集中，因此同一個樣本可能會被多次選中。
- 在隨機森林中，Bootstrap 用於生成每棵決策樹的訓練資料集。這樣做的目的是降低對單一資料的依賴，增加模型的多樣性，從而提高模型的穩定性和準確性。
隨機特徵選擇：在每個節點分裂時，隨機選擇一部分特徵，這樣可以防止所有樹都選擇相同的特徵，從而增加多樣性。
最終的分類結果是通過多數決投票決定的，而回歸結果則是取平均值。這樣可以降低模型的方差，增加穩定性。

參數重點

樹的數量 (n_estimators)：樹越多，模型越穩定，但計算成本也會增加。
最大深度和最小樣本數：這些參數用來控制過擬合。
max_features：決定每次分裂時使用的特徵數量。

優點與缺點

優點：隨機森林抗過擬合能力強，能處理非線性和混合型特徵，對缺失值也比較穩定。
缺點：相比單棵樹，隨機森林的可解釋性較低，對於極高維度的稀疏資料效果較差，模型體積較大。

特徵重要性

隨機森林可以用來了解哪些特徵對模型貢獻最大。如果需要更強的表現，可以考慮使用梯度提升樹（如 GBDT、XGBoost、LightGBM），但要注意過擬合和參數調整。

應用領域

信用風險與詐欺偵測：隨機森林的穩定性高，對異常值敏感，適合用於合規評估。
醫療與生物資訊：在中小樣本和高維特徵的情境下，用於分類疾病亞型或預測預後。
製造與品質：利用感測器和檢驗特徵來預測不良品，抗雜訊能力強。
行銷與客群預測：用於預測客戶流失或購買傾向，並提供重要特徵以支持決策。
特徵篩選：利用特徵重要性進行初步篩選，然後再使用其他模型。

共通重點

設定好深度和樣本數以避免過擬合。
樹的數量需要在性能和效能之間取得平衡。
當資料不平衡時，可以調整類別權重或進行重採樣。

3 題模擬練習題

隨機森林降低過擬合的關鍵？
- A. 刪掉特徵
- B. Bagging 抽樣 + 節點隨機特徵，讓樹彼此多樣
- C. 只有一棵樹
- D. 不用投票
- 正確答案：B；解析：多樣性讓平均後的模型方差下降。
分類輸出的集成方式？
- A. 平均值
- B. 多數決投票
- C. 取最大特徵
- D. 隨機挑一棵樹
- 正確答案：B；解析：分類用票數決定最終類別，回歸才用平均。
樹數量非常大會怎樣？
- A. 一定更準且無成本
- B. 準確率可能趨於飽和但計算與記憶體成本上升
- C. 自動變成深度學習
- D. 失去隨機性
- 正確答案：B；解析：增加樹到一定程度邊際收益降低，但成本持續增加。

關係圖譜

隨機森林
定義（Definition）
原理與技術
參數重點
優點與缺點
特徵重要性
應用領域
共通重點
3 題模擬練習題

反向連結

0. AI應用規劃師初級名詞地圖
決策樹
預測性分析（Predictive Analysis）

Created with Quartz v4.5.2 © 2026

GitHub
Discord Community