中文名稱：K 均值聚類英文名稱：K-Means Clustering

📌 定義（Definition）

K 均值聚類是一種非監督式學習方法，用來在「沒有標籤」的情況下，把資料自動分成 K 個群組（Cluster），使群內相似、群間不同。

⭐原理與技術

K-Means 的目標是讓：
- 同一群內的資料彼此很像
- 不同群之間的資料差異很大
透過「距離」來判斷像不像，最常用的是 歐氏距離。
每一群的中心點，就是該群所有資料的「平均值（Mean）」。資料型態必須能夠平均 (數值型資料)。

流程

先指定 K 值（要分幾群）
隨機選 K 個中心點（Centroids）
把每筆資料分到最近的中心
重新計算每一群的中心點
重複 3、4，直到分群結果不再變化。

怎麼選 K 值？

必須由人先決定，非模型自動算出。
常見判斷方式
- Elbow Method（肘部法）
- 輪廓係數（Silhouette Score）
- 業務或實務需求先決（我想要分成幾組）

優點

概念簡單、好理解
計算速度快
適合大量資料
常作為探索分析的第一步
K-means常與 PCA（降維）、 Elbow method（選 k值）等方法結合，具有一定彈性。對於球形且大小密度接近的群體，

限制

必須先指定 K
對初始中心點敏感
對異常值（Outliers）非常敏感
不適合非球狀或大小差異很大的群
只適合數值型資料

🔗 應用領域

客戶分群
使用者行為分群
產品特性分群
製程參數樣態分類（前期分析）

通常用在： 還不知道怎麼分、想先看看資料長怎樣。

3 題模擬練習題

題目一：學習類型判斷（基本陷阱）

下列哪一項最正確描述 K-Means 聚類的特性？

A. 屬於監督式學習，需要事先提供正確標籤
B. 屬於非監督式學習，不需要標籤資料
C. 屬於半監督式學習，需要部分標籤
D. 屬於強化學習，透過回饋來調整分群

正確答案：B

詳解：
K-Means 的核心特徵是：

沒有「正確答案」
只根據資料之間的距離與相似度進行分群

因此它屬於非監督式學習。
A、C、D 都是在混淆不同學習類型。

題目二：K 值設定判斷（高頻陷阱）

關於 K-Means 中的 K 值，下列敘述何者正確？

A. K 值由模型自動學習，不需人為指定
B. K 值越大，分群結果一定越好
C. K 值需事先指定，且選擇不當會影響結果
D. K 值只能設定為 2 或 3

正確答案：C

詳解：
K-Means 的一個核心限制就是：
👉 K 必須事先由人決定。

A 是常見誤解
B 屬於直覺錯誤，K 過大反而會過度切割
D 完全沒有依據

選擇不適當的 K，會讓分群失去意義。

題目三：資料特性適用性判斷（實務陷阱）

下列哪一種情況最不適合使用 K-Means 聚類？

A. 資料為連續數值型變數
B. 各群呈現近似球狀、大小相近
C. 資料中存在大量極端異常值
D. 需要快速處理大量資料

正確答案：C

詳解：
K-Means 使用「平均值」作為群中心，
對異常值非常敏感。

當資料中存在大量極端值時：

群中心會被拉偏
分群結果失真

A、B、D 都是 K-Means 的適合情境。
這一題是考試中非常典型的「適用性判斷題」。

KBP的AI應用規劃師筆記

探索

K 均值聚類（K-Means Clustering）