中文名稱:特徵工程
英文名稱:Feature Engineering

📌 定義(Definition)

特徵工程(Feature Engineering) 是指在機器學習與資料科學中,透過資料轉換、組合、選擇與降維等方法,將原始資料轉換成更有資訊價值的特徵(features),以提升模型的預測能力與訓練效率。其核心目標是讓資料更能表達問題的關鍵模式,使模型更容易學習有效規則。

⭐原理與技術

特徵工程通常包含以下重要技術與概念:

1. 特徵交叉(Feature Cross)

將兩個或多個特徵組合成新的特徵,用來捕捉特徵之間的交互關係。例如「星期幾 × 時段」可以形成新的特徵,用來預測某時段的需求量或交通流量。

2. 降維(Dimensionality Reduction)

當特徵數量過多時,會增加計算成本並可能造成過度擬合,因此需要降低特徵維度。常見方法包括 PCA 等技術。

3. 主成分分析(PCA, Principal Component Analysis)PCA

PCA 是一種統計方法,透過線性轉換將高維資料投影到較低維度的空間,同時保留資料中最重要的變異資訊。這有助於降低資料複雜度並減少噪音。

4. 特徵提取(Feature Extraction)

從原始資料中萃取具有代表性的資訊,例如從圖片中提取邊緣特徵、從文本中提取關鍵詞或向量表示。

5. 監督式特徵選擇(Supervised Feature Selection, SFS)

利用標籤資料(label)評估哪些特徵與預測目標最相關,選出最重要的特徵。例如利用相關係數、資訊增益等方法篩選特徵。

6. 非線性映射(Nonlinear Mapping)

某些資料之間的關係是非線性的,因此可以透過非線性轉換(例如多項式特徵、核方法)讓模型更容易捕捉複雜關係。

7. 多重共線性處理(Multicollinearity Handling)

當多個特徵高度相關時,會導致模型不穩定。常見解決方法包括刪除冗餘特徵、使用 PCA 或合併高度相關的特徵。

🔗 應用領域

  • 交通 將「星期幾 × 時段」進行特徵交叉,用於預測尖峰時段車流量或乘車率。
  • 零售 透過監督式特徵選擇找出與購買意願最相關的變數,例如價格、促銷活動或季節因素。
  • 製造業 將溫度與壓力等製程參數進行特徵交叉,用於預測設備故障或品質異常。
  • 生物醫學 使用 PCA 將高維度基因資料降維,降低資料複雜度後再進行疾病分類。
  • 金融 合併高度相關的財務指標,避免多重共線性造成模型不穩定。

3 題模擬練習題

題目 1

以下哪一種方法主要用於降低資料維度並保留最大變異資訊?

A. Feature Cross
B. PCA
C. Feature Selection
D. Normalization

答案:B

解析:
PCA(主成分分析)是一種常見的降維技術,透過線性轉換將高維資料映射到低維空間,同時保留資料中的主要變異。

題目 2

將「星期幾」與「時段」組合成新特徵來預測交通流量,這屬於哪一種特徵工程方法?

A. Feature Cross
B. Feature Extraction
C. PCA
D. Regularization

答案:A

解析:
Feature Cross 是將兩個或多個特徵組合成新的特徵,以捕捉變數之間的交互關係。

題目 3

當資料集中多個特徵彼此高度相關,導致模型不穩定時,這種問題稱為什麼?

A. Overfitting
B. Data Drift
C. Multicollinearity
D. Concept Drift

答案:C

解析:
Multicollinearity(多重共線性)指特徵之間高度相關,會影響模型參數估計與穩定性,通常透過特徵刪除或 PCA 等方法解決。