中文名稱:特徵工程
英文名稱:Feature Engineering
📌 定義(Definition)
特徵工程(Feature Engineering) 是指在機器學習與資料科學中,透過資料轉換、組合、選擇與降維等方法,將原始資料轉換成更有資訊價值的特徵(features),以提升模型的預測能力與訓練效率。其核心目標是讓資料更能表達問題的關鍵模式,使模型更容易學習有效規則。
⭐原理與技術
特徵工程通常包含以下重要技術與概念:
1. 特徵交叉(Feature Cross)
將兩個或多個特徵組合成新的特徵,用來捕捉特徵之間的交互關係。例如「星期幾 × 時段」可以形成新的特徵,用來預測某時段的需求量或交通流量。
2. 降維(Dimensionality Reduction)
當特徵數量過多時,會增加計算成本並可能造成過度擬合,因此需要降低特徵維度。常見方法包括 PCA 等技術。
3. 主成分分析(PCA, Principal Component Analysis)PCA
PCA 是一種統計方法,透過線性轉換將高維資料投影到較低維度的空間,同時保留資料中最重要的變異資訊。這有助於降低資料複雜度並減少噪音。
4. 特徵提取(Feature Extraction)
從原始資料中萃取具有代表性的資訊,例如從圖片中提取邊緣特徵、從文本中提取關鍵詞或向量表示。
5. 監督式特徵選擇(Supervised Feature Selection, SFS)
利用標籤資料(label)評估哪些特徵與預測目標最相關,選出最重要的特徵。例如利用相關係數、資訊增益等方法篩選特徵。
6. 非線性映射(Nonlinear Mapping)
某些資料之間的關係是非線性的,因此可以透過非線性轉換(例如多項式特徵、核方法)讓模型更容易捕捉複雜關係。
7. 多重共線性處理(Multicollinearity Handling)
當多個特徵高度相關時,會導致模型不穩定。常見解決方法包括刪除冗餘特徵、使用 PCA 或合併高度相關的特徵。
🔗 應用領域
- 交通 將「星期幾 × 時段」進行特徵交叉,用於預測尖峰時段車流量或乘車率。
- 零售 透過監督式特徵選擇找出與購買意願最相關的變數,例如價格、促銷活動或季節因素。
- 製造業 將溫度與壓力等製程參數進行特徵交叉,用於預測設備故障或品質異常。
- 生物醫學 使用 PCA 將高維度基因資料降維,降低資料複雜度後再進行疾病分類。
- 金融 合併高度相關的財務指標,避免多重共線性造成模型不穩定。
3 題模擬練習題
題目 1
以下哪一種方法主要用於降低資料維度並保留最大變異資訊?
A. Feature Cross
B. PCA
C. Feature Selection
D. Normalization
答案:B
解析:
PCA(主成分分析)是一種常見的降維技術,透過線性轉換將高維資料映射到低維空間,同時保留資料中的主要變異。
題目 2
將「星期幾」與「時段」組合成新特徵來預測交通流量,這屬於哪一種特徵工程方法?
A. Feature Cross
B. Feature Extraction
C. PCA
D. Regularization
答案:A
解析:
Feature Cross 是將兩個或多個特徵組合成新的特徵,以捕捉變數之間的交互關係。
題目 3
當資料集中多個特徵彼此高度相關,導致模型不穩定時,這種問題稱為什麼?
A. Overfitting
B. Data Drift
C. Multicollinearity
D. Concept Drift
答案:C
解析:
Multicollinearity(多重共線性)指特徵之間高度相關,會影響模型參數估計與穩定性,通常透過特徵刪除或 PCA 等方法解決。