中文名稱:特徵選擇 英文名稱:Feature Selection

📌 定義(Definition)

特徵選擇是指在不改變原始變數意義的前提下,挑選出對模型最有幫助的一部分特徵, 以達到以下目的:

  • 降低模型複雜度
  • 減少過擬合
  • 提升模型效能與穩定性
  • 增加可解釋性

⭐原理與技術

過濾法(Filter Methods)

核心概念

過濾法是在建模之前,先用統計方法(如相關性)評估每個特徵本身的重要性。 它不依賴任何特定模型, 只看「特徵與目標之間的關係強不強」。

常見方法:皮爾遜(Pearson)相關係數

  • 衡量兩個變數之間的線性相關程度
  • 相關係數絕對值越大,代表關係越強

在分類或回歸前,可以先篩掉:

  • 幾乎沒有相關性的特徵
  • 或彼此高度重複的特徵

過濾法的特性

  • 優點:
    • 計算快
    • 不依賴模型
    • 適合高維資料的初步篩選
  • 缺點:
    • 沒考慮特徵之間的交互影響
    • 不保證對最終模型效果最好

👉 適合當第一道「粗篩」。

包裝法(Wrapper Methods)

核心概念

包裝法是把「模型效能」當作評分標準,來評估特徵組合好不好。 簡單說就是: 「真的拿這些特徵去跑模型,看效果如何。」

常見方法:遞迴特徵消除(RFE)

RFE (Recursive Feature Elimination) 的流程是:

  1. 使用全部特徵訓練模型
  2. 根據模型結果,刪掉最不重要的特徵
  3. 重新訓練模型
  4. 重複上述步驟,直到剩下指定數量
    這是一種反覆試驗、逐步淘汰的方法。

包裝法的特性(高頻陷阱)

  • 優點:
    • 與實際模型效能高度相關
    • 通常能得到較好的預測結果
  • 缺點:
    • 計算成本高
    • 特徵多時非常耗時
    • 容易過擬合(若資料量不足)

👉 效果好,但不適合大量特徵或快速分析。

嵌入法(Embedded Methods)

核心概念

嵌入法是在模型訓練的過程中,同時完成特徵選擇。 特徵是否重要, 由模型「內建的機制」自動決定。

常見方法:LASSO(L1 正則化)

LASSO 的特性是:

  • 在訓練過程中
  • 將部分特徵的權重壓到 0
  • 權重為 0 的特徵等同被移除

所以 LASSO 同時做到:

嵌入法的特性(考試重點)

  • 優點:
    • 計算效率較佳
    • 與模型整合
    • 自然防止過擬合
  • 缺點:
    • 與模型類型高度相關
    • 解釋依賴模型假設

👉 在效能與效率之間取得平衡。

PCA 比較

PCA特徵選擇
創造新變數選原本變數
保留資訊、犧牲解釋性保留解釋性

🔗 應用領域

3 題模擬練習題

題目一:方法分類判斷(基本陷阱)

下列哪一種特徵選擇方法不需要實際訓練模型,僅利用統計量或相關性來篩選特徵?

A. 包裝法(Wrapper Methods)
B. 嵌入法(Embedded Methods)
C. 過濾法(Filter Methods)
D. 遞迴特徵消除(RFE)

正確答案:C

詳解:
過濾法的特點是:
在建模之前,先利用資料本身的統計特性(如相關係數、卡方檢定)進行特徵篩選,
不需要也不依賴任何模型訓練

  • A、D 都需要實際跑模型
  • B 則是模型訓練過程中的機制

這題的陷阱在於把「方法名稱」與「是否用模型」混在一起。

題目二:方法與特性配對(高頻陷阱)

關於三種特徵選擇方法,下列哪一組「方法 × 特性」配對正確

A. 過濾法:考慮特徵之間的交互作用,結果最精準
B. 包裝法:計算成本最低,適合高維度資料
C. 嵌入法:在模型訓練過程中自動完成特徵選擇
D. 嵌入法:與模型無關,具有高度通用性

正確答案:C

詳解:
嵌入法(如 LASSO)最大的特點是:
在模型訓練的同時,利用內建機制自動進行特徵選擇。

  • A 錯在「過濾法不考慮特徵交互作用」
  • B 錯在「包裝法計算成本高」
  • D 錯在「嵌入法與模型高度相關」

這題專門考你能不能抓住「核心差異」。

題目三:實務情境判斷(應用型陷阱)

某資料集包含上千個特徵,資料量不大,分析人員希望在避免過度計算成本的情況下, 同時降低過擬合風險並保留模型效能。

下列哪一種特徵選擇方法最合理

A. 包裝法(如 RFE),因為效能最佳
B. 過濾法(如 Pearson 相關係數),完全不需模型
C. 嵌入法(如 LASSO 正則化)
D. 不進行特徵選擇,直接使用所有特徵

正確答案:C

詳解:
題目關鍵條件是:

  • 特徵很多
  • 資料量不大
  • 需要兼顧效能與效率

嵌入法正好符合:

  • 在訓練過程中自動選特徵
  • 正則化可降低過擬合
  • 計算成本比包裝法低

A 在此情境下成本過高;
B 只能做粗篩,效果有限;
D 則風險最高。