中文名稱:主成分分析 英文名稱:Principal Component Analysis

📌 定義(Definition)

主成分分析(PCA) 是一種非監督式學習的降維方法,用來在保留資料主要資訊的前提下,減少變數數量

⭐原理與技術

當資料有很多變數,而且彼此高度相關時,模型會變複雜,計算成本高容易過擬合。PCA 不是「挑幾個原本的變數」,而是:重新組合原始變數,產生新的變數(主成分)。 PCA 透過線性變換,將高維數據壓縮到低維空間,同時保留數據的主要訊息,有助於減少冗餘數據並提高計算效率。

主成分

  • 主成分彼此不相關
  • 主成分依照「能解釋多少變異」排序
  • 第一主成分(PC1): 能解釋資料中「最多變異」的方向
  • 第二主成分(PC2): 在與 PC1 垂直的方向上,解釋最多剩餘變異

用途

  1. 降低維度
    • 變數太多 → 保留前幾個主成分
    • 模型變簡單、運算變快
  2. 降低多重共線性
    • 原始變數高度相關
    • PCA 轉換後彼此不相關
  3. 視覺化高維資料
    • 高維 → 2D 或 3D
    • 用來觀察群聚趨勢

限制

  • 主成分不具直觀意義,解釋性差
  • 只考慮變異,不考慮目標。重要特徵不一定對預測有用。
  • 對尺度敏感。變數未標準化,結果會偏。使用 PCA 前通常要先做標準化(Standardization)。

特徵選擇比較

PCA特徵選擇
創造新變數選原本變數
保留資訊、犧牲解釋性保留解釋性

🔗 應用領域

PCA 通常用在:

  • 模型前處理
  • 特徵太多、相關性太高時
  • 想降低過擬合風險
  • 想加速訓練
    但不適合用在: 高度需要解釋性的決策場景

在圖像壓縮中,PCA 可以有效減少數據量,實現高效儲存和傳輸。 在基因數據分析中,PCA 則被用來提取最具代表性的特徵,幫助科學家發現潛在的基因表達模式。

3 題模擬練習題

題目一:PCA 的學習性質判斷(基本陷阱)

關於主成分分析(PCA),下列敘述何者正確

A. PCA 是監督式學習,需使用標籤資料
B. PCA 是非監督式學習,不使用標籤
C. PCA 是分類模型,用來預測類別
D. PCA 是聚類方法,會自動分群

正確答案:B 詳解:
PCA 的目標是保留資料中的變異結構,整個過程不使用任何標籤資訊,因此屬於非監督式學習

A、C、D 都是常見的混淆概念。

題目二:PCA 與特徵選擇的混合陷阱

下列關於 PCA 與特徵選擇的比較,哪一項敘述最正確

A. PCA 是從原始變數中挑選最重要的幾個
B. PCA 會產生新的變數,而不是選原本的
C. PCA 保留原始變數的語意與解釋性
D. PCA 只適用於有標籤的資料

正確答案:B

詳解:
PCA 的本質是:
👉 將原始變數重新線性組合,產生新的主成分

因此:

  • 它不是挑選原變數(A 錯)
  • 會犧牲直觀解釋性(C 錯)
  • 與是否有標籤無關(D 錯)

題目三:實務應用與前處理判斷(高頻陷阱)

在使用 PCA 前,以下哪一個步驟最重要且最容易被忽略

A. 將資料轉成類別型變數
B. 對資料進行標準化或尺度調整
C. 先進行模型訓練
D. 移除所有低變異的變數

正確答案:B

詳解:
PCA 以「變異量」為依據, 若各變數尺度差異很大(例如:公斤 vs 毫米), 變異大的變數會主導主成分,導致結果失真。

因此:
👉 PCA 前幾乎一定要先做標準化(Standardization)。 這題是 PCA 最經典、也最常考的實務陷阱。