決策樹
中文名稱:決策樹 英文名稱:Decision Tree
定義(Definition)
以樹狀結構逐步分裂特徵、做出分類的模型,每個節點是一個條件,葉節點給出預測,直覺且可解釋,常作為基模型或集成方法的基礎。
原理與技術
原理
決策樹的生成基於遞迴分割原則,利用資訊增益、吉尼係數或均方誤差等標準選擇最佳劃分特徵,從而構建樹形結構。在樹的每個分支處,數據根據特徵值進行劃分,直到滿足終止條件。
訓練
在訓練決策樹模型時,我們從樹的根部開始,選擇最能幫助我們分辨資料的特徵和切分點。這樣做是為了讓資料在每個分支中變得更有條理。常用的方法有:
- 資訊增益/熵(Entropy, Information Gain) 這是一種衡量資料混亂程度的方法,幫助我們選擇最佳的分裂方式。
- 基尼不純度(Gini Impurity) 這是另一種衡量資料純度的方法,數值越低表示資料越整齊。
- 回歸的平方誤差減少 用於預測數值時,幫助我們選擇最佳分裂點。
我們會不斷地對每個分支進行這樣的分裂,直到達到某些限制,比如最小樣本數、最大的樹深度,或者資料已經足夠整齊。
為了避免模型過於複雜(過擬合),我們需要進行一些控制,比如剪掉不必要的分支(剪枝)、限制樹的深度、確保每個葉節點有足夠的樣本數,或者設定最小的增益。
優點:決策樹容易理解,可以處理不同類型的資料,不需要對資料進行特別的處理,並且能夠捕捉非線性的關係。
缺點:容易過於複雜,對資料的微小變動很敏感。
有些方法,比如隨機森林(Random Forest)和梯度提升樹,會使用多棵樹來提高模型的穩定性和準確性。
在實際應用中,我們可能需要對資料進行編碼、處理缺失值,並使用交叉驗證來選擇最佳的模型參數。模型的解釋可以通過樹的圖形、特徵的重要性等方式來進行。
應用領域
- 信貸風險與詐欺偵測:決策樹可以幫助我們視覺化地分辨哪些特徵可能與信貸風險或詐欺行為有關,這樣的視覺化有助於合規審查。
- 醫療診斷:在醫療領域,決策樹能夠以簡單易懂的方式展示診斷過程,特別適合用於小樣本的醫療規則,但需要注意避免偏差並進行驗證。
- 行銷客群分群:透過決策樹,我們可以根據不同的特徵將客戶分成不同的群體,這有助於制定更有針對性的行銷策略。
- 工業品質檢驗:在工業生產中,決策樹可以快速識別出哪些條件可能導致產品不合格,從而提高品質檢驗的效率。
- 特徵選擇與基模型:決策樹常被用作基礎學習工具,幫助我們理解資料的結構,並選擇出最重要的特徵。 共通重點:防止過擬合與處理數值/類別混合特徵是關鍵;集成樹更強但解釋性較低,需平衡性能與可解釋。
3 題模擬練習題
- 為何決策樹容易過擬合?
- A. 樹一定很淺
- B. 若無限制,樹會一直分裂直到完全純度
- C. 樹沒有特徵
- D. 因為只能用線性
- 正確答案:B;解析:不加限制會對訓練資料記憶,需剪枝或限制深度。
- 基尼不純度越低代表什麼?
- A. 節點越混亂
- B. 節點樣本越純,分類越一致
- C. 需要更多特徵
- D. 模型壞了
- 正確答案:B;解析:基尼衡量混雜度,越低越好。
- 若想提升準確度並穩定性,常見做法?
- A. 刪掉資料
- B. 使用集成方法,如隨機森林或梯度提升樹
- C. 不剪枝
- D. 把所有特徵設為 0
- 正確答案:B;解析:多棵樹投票或累積殘差能降低變異、提升表現。