中文名稱:特徵選擇 英文名稱:Feature Selection
📌 定義(Definition)
特徵選擇是指在不改變原始變數意義的前提下,挑選出對模型最有幫助的一部分特徵, 以達到以下目的:
- 降低模型複雜度
- 減少過擬合
- 提升模型效能與穩定性
- 增加可解釋性
⭐原理與技術
過濾法(Filter Methods)
核心概念
過濾法是在建模之前,先用統計方法(如相關性)評估每個特徵本身的重要性。 它不依賴任何特定模型, 只看「特徵與目標之間的關係強不強」。
常見方法:皮爾遜(Pearson)相關係數
- 衡量兩個變數之間的線性相關程度
- 相關係數絕對值越大,代表關係越強
在分類或回歸前,可以先篩掉:
- 幾乎沒有相關性的特徵
- 或彼此高度重複的特徵
過濾法的特性
- 優點:
- 計算快
- 不依賴模型
- 適合高維資料的初步篩選
- 缺點:
- 沒考慮特徵之間的交互影響
- 不保證對最終模型效果最好
👉 適合當第一道「粗篩」。
包裝法(Wrapper Methods)
核心概念
包裝法是把「模型效能」當作評分標準,來評估特徵組合好不好。 簡單說就是: 「真的拿這些特徵去跑模型,看效果如何。」
常見方法:遞迴特徵消除(RFE)
RFE (Recursive Feature Elimination) 的流程是:
- 使用全部特徵訓練模型
- 根據模型結果,刪掉最不重要的特徵
- 重新訓練模型
- 重複上述步驟,直到剩下指定數量
這是一種反覆試驗、逐步淘汰的方法。
包裝法的特性(高頻陷阱)
- 優點:
- 與實際模型效能高度相關
- 通常能得到較好的預測結果
- 缺點:
- 計算成本高
- 特徵多時非常耗時
- 容易過擬合(若資料量不足)
👉 效果好,但不適合大量特徵或快速分析。
嵌入法(Embedded Methods)
核心概念
嵌入法是在模型訓練的過程中,同時完成特徵選擇。 特徵是否重要, 由模型「內建的機制」自動決定。
常見方法:LASSO(L1 正則化)
LASSO 的特性是:
- 在訓練過程中
- 將部分特徵的權重壓到 0
- 權重為 0 的特徵等同被移除
所以 LASSO 同時做到:
- 建模
- 正則化(Regularization)
- 特徵選擇
嵌入法的特性(考試重點)
- 優點:
- 計算效率較佳
- 與模型整合
- 自然防止過擬合
- 缺點:
- 與模型類型高度相關
- 解釋依賴模型假設
👉 在效能與效率之間取得平衡。
和 PCA 比較
| PCA | 特徵選擇 |
|---|---|
| 創造新變數 | 選原本變數 |
| 保留資訊、犧牲解釋性 | 保留解釋性 |
🔗 應用領域
3 題模擬練習題
題目一:方法分類判斷(基本陷阱)
下列哪一種特徵選擇方法不需要實際訓練模型,僅利用統計量或相關性來篩選特徵?
A. 包裝法(Wrapper Methods)
B. 嵌入法(Embedded Methods)
C. 過濾法(Filter Methods)
D. 遞迴特徵消除(RFE)
正確答案:C
詳解:
過濾法的特點是:
在建模之前,先利用資料本身的統計特性(如相關係數、卡方檢定)進行特徵篩選,
不需要也不依賴任何模型訓練。
- A、D 都需要實際跑模型
- B 則是模型訓練過程中的機制
這題的陷阱在於把「方法名稱」與「是否用模型」混在一起。
題目二:方法與特性配對(高頻陷阱)
關於三種特徵選擇方法,下列哪一組「方法 × 特性」配對正確?
A. 過濾法:考慮特徵之間的交互作用,結果最精準
B. 包裝法:計算成本最低,適合高維度資料
C. 嵌入法:在模型訓練過程中自動完成特徵選擇
D. 嵌入法:與模型無關,具有高度通用性
正確答案:C
詳解:
嵌入法(如 LASSO)最大的特點是:
在模型訓練的同時,利用內建機制自動進行特徵選擇。
- A 錯在「過濾法不考慮特徵交互作用」
- B 錯在「包裝法計算成本高」
- D 錯在「嵌入法與模型高度相關」
這題專門考你能不能抓住「核心差異」。
題目三:實務情境判斷(應用型陷阱)
某資料集包含上千個特徵,資料量不大,分析人員希望在避免過度計算成本的情況下, 同時降低過擬合風險並保留模型效能。
下列哪一種特徵選擇方法最合理?
A. 包裝法(如 RFE),因為效能最佳
B. 過濾法(如 Pearson 相關係數),完全不需模型
C. 嵌入法(如 LASSO 正則化)
D. 不進行特徵選擇,直接使用所有特徵
正確答案:C
詳解:
題目關鍵條件是:
- 特徵很多
- 資料量不大
- 需要兼顧效能與效率
嵌入法正好符合:
- 在訓練過程中自動選特徵
- 正則化可降低過擬合
- 計算成本比包裝法低
A 在此情境下成本過高;
B 只能做粗篩,效果有限;
D 則風險最高。