中文名稱:主成分分析 英文名稱:Principal Component Analysis
📌 定義(Definition)
主成分分析(PCA) 是一種非監督式學習的降維方法,用來在保留資料主要資訊的前提下,減少變數數量。
⭐原理與技術
當資料有很多變數,而且彼此高度相關時,模型會變複雜,計算成本高容易過擬合。PCA 不是「挑幾個原本的變數」,而是:重新組合原始變數,產生新的變數(主成分)。 PCA 透過線性變換,將高維數據壓縮到低維空間,同時保留數據的主要訊息,有助於減少冗餘數據並提高計算效率。
主成分
- 主成分彼此不相關
- 主成分依照「能解釋多少變異」排序
- 第一主成分(PC1): 能解釋資料中「最多變異」的方向
- 第二主成分(PC2): 在與 PC1 垂直的方向上,解釋最多剩餘變異
用途
- 降低維度
- 變數太多 → 保留前幾個主成分
- 模型變簡單、運算變快
- 降低多重共線性
- 原始變數高度相關
- PCA 轉換後彼此不相關
- 視覺化高維資料
- 高維 → 2D 或 3D
- 用來觀察群聚趨勢
限制
- 主成分不具直觀意義,解釋性差
- 只考慮變異,不考慮目標。重要特徵不一定對預測有用。
- 對尺度敏感。變數未標準化,結果會偏。使用 PCA 前通常要先做標準化(Standardization)。
和特徵選擇比較
| PCA | 特徵選擇 |
|---|---|
| 創造新變數 | 選原本變數 |
| 保留資訊、犧牲解釋性 | 保留解釋性 |
🔗 應用領域
PCA 通常用在:
- 模型前處理
- 特徵太多、相關性太高時
- 想降低過擬合風險
- 想加速訓練
但不適合用在: 高度需要解釋性的決策場景。
在圖像壓縮中,PCA 可以有效減少數據量,實現高效儲存和傳輸。 在基因數據分析中,PCA 則被用來提取最具代表性的特徵,幫助科學家發現潛在的基因表達模式。
3 題模擬練習題
題目一:PCA 的學習性質判斷(基本陷阱)
關於主成分分析(PCA),下列敘述何者正確?
A. PCA 是監督式學習,需使用標籤資料
B. PCA 是非監督式學習,不使用標籤
C. PCA 是分類模型,用來預測類別
D. PCA 是聚類方法,會自動分群
正確答案:B
詳解:
PCA 的目標是保留資料中的變異結構,整個過程不使用任何標籤資訊,因此屬於非監督式學習。
A、C、D 都是常見的混淆概念。
題目二:PCA 與特徵選擇的混合陷阱
下列關於 PCA 與特徵選擇的比較,哪一項敘述最正確?
A. PCA 是從原始變數中挑選最重要的幾個
B. PCA 會產生新的變數,而不是選原本的
C. PCA 保留原始變數的語意與解釋性
D. PCA 只適用於有標籤的資料
正確答案:B
詳解:
PCA 的本質是:
👉 將原始變數重新線性組合,產生新的主成分。
因此:
- 它不是挑選原變數(A 錯)
- 會犧牲直觀解釋性(C 錯)
- 與是否有標籤無關(D 錯)
題目三:實務應用與前處理判斷(高頻陷阱)
在使用 PCA 前,以下哪一個步驟最重要且最容易被忽略?
A. 將資料轉成類別型變數
B. 對資料進行標準化或尺度調整
C. 先進行模型訓練
D. 移除所有低變異的變數
正確答案:B
詳解:
PCA 以「變異量」為依據, 若各變數尺度差異很大(例如:公斤 vs 毫米), 變異大的變數會主導主成分,導致結果失真。
因此:
👉 PCA 前幾乎一定要先做標準化(Standardization)。
這題是 PCA 最經典、也最常考的實務陷阱。