中文名稱：主成分分析英文名稱：Principal Component Analysis

📌 定義（Definition）

主成分分析（PCA） 是一種非監督式學習的降維方法，用來在保留資料主要資訊的前提下，減少變數數量。

⭐原理與技術

當資料有很多變數，而且彼此高度相關時，模型會變複雜，計算成本高容易過擬合。PCA 不是「挑幾個原本的變數」，而是：重新組合原始變數，產生新的變數（主成分）。 PCA 透過線性變換，將高維數據壓縮到低維空間，同時保留數據的主要訊息，有助於減少冗餘數據並提高計算效率。

主成分

主成分彼此不相關
主成分依照「能解釋多少變異」排序
第一主成分（PC1）：能解釋資料中「最多變異」的方向
第二主成分（PC2）：在與 PC1 垂直的方向上，解釋最多剩餘變異

用途

降低維度
- 變數太多 → 保留前幾個主成分
- 模型變簡單、運算變快
降低多重共線性
- 原始變數高度相關
- PCA 轉換後彼此不相關
視覺化高維資料
- 高維 → 2D 或 3D
- 用來觀察群聚趨勢

限制

主成分不具直觀意義，解釋性差
只考慮變異，不考慮目標。重要特徵不一定對預測有用。
對尺度敏感。變數未標準化，結果會偏。使用 PCA 前通常要先做標準化（Standardization）。

和特徵選擇比較

PCA	特徵選擇
創造新變數	選原本變數
保留資訊、犧牲解釋性	保留解釋性

🔗 應用領域

PCA 通常用在：

模型前處理
特徵太多、相關性太高時
想降低過擬合風險
想加速訓練
但不適合用在： 高度需要解釋性的決策場景。

在圖像壓縮中，PCA 可以有效減少數據量，實現高效儲存和傳輸。在基因數據分析中，PCA 則被用來提取最具代表性的特徵，幫助科學家發現潛在的基因表達模式。

3 題模擬練習題

題目一：PCA 的學習性質判斷（基本陷阱）

關於主成分分析（PCA），下列敘述何者正確？

A. PCA 是監督式學習，需使用標籤資料
B. PCA 是非監督式學習，不使用標籤
C. PCA 是分類模型，用來預測類別
D. PCA 是聚類方法，會自動分群

正確答案：B 詳解：
PCA 的目標是保留資料中的變異結構，整個過程不使用任何標籤資訊，因此屬於非監督式學習。

A、C、D 都是常見的混淆概念。

題目二：PCA 與特徵選擇的混合陷阱

下列關於 PCA 與特徵選擇的比較，哪一項敘述最正確？

A. PCA 是從原始變數中挑選最重要的幾個
B. PCA 會產生新的變數，而不是選原本的
C. PCA 保留原始變數的語意與解釋性
D. PCA 只適用於有標籤的資料

正確答案：B

詳解：
PCA 的本質是：
👉 將原始變數重新線性組合，產生新的主成分。

因此：

它不是挑選原變數（A 錯）
會犧牲直觀解釋性（C 錯）
與是否有標籤無關（D 錯）

題目三：實務應用與前處理判斷（高頻陷阱）

在使用 PCA 前，以下哪一個步驟最重要且最容易被忽略？

A. 將資料轉成類別型變數
B. 對資料進行標準化或尺度調整
C. 先進行模型訓練
D. 移除所有低變異的變數

正確答案：B

詳解：
PCA 以「變異量」為依據，若各變數尺度差異很大（例如：公斤 vs 毫米），變異大的變數會主導主成分，導致結果失真。

因此：
👉 PCA 前幾乎一定要先做標準化（Standardization）。這題是 PCA 最經典、也最常考的實務陷阱。

KBP的AI應用規劃師筆記

探索

主成分分析（PCA）