中文名稱:K 均值聚類 英文名稱:K-Means Clustering
📌 定義(Definition)
K 均值聚類是一種非監督式學習方法,用來在「沒有標籤」的情況下, 把資料自動分成 K 個群組(Cluster),使群內相似、群間不同。
⭐原理與技術
- K-Means 的目標是讓:
- 同一群內的資料彼此很像
- 不同群之間的資料差異很大
- 透過「距離」來判斷像不像,最常用的是 歐氏距離。
- 每一群的中心點,就是該群所有資料的「平均值(Mean)」。 資料型態必須能夠平均 (數值型資料)。
流程
- 先指定 K 值(要分幾群)
- 隨機選 K 個中心點(Centroids)
- 把每筆資料分到最近的中心
- 重新計算每一群的中心點
重複 3、4,直到分群結果不再變化。
怎麼選 K 值?
- 必須由人先決定,非模型自動算出。
- 常見判斷方式
- Elbow Method(肘部法)
- 輪廓係數(Silhouette Score)
- 業務或實務需求先決(我想要分成幾組)
優點
- 概念簡單、好理解
- 計算速度快
- 適合大量資料
- 常作為探索分析的第一步
- K-means常與 PCA(降維)、 Elbow method(選 k值)等方法結合,具有一定彈性。對於球形且大小密度接近的群體,
限制
- 必須先指定 K
- 對初始中心點敏感
- 對異常值(Outliers)非常敏感
- 不適合非球狀或大小差異很大的群
- 只適合數值型資料
🔗 應用領域
- 客戶分群
- 使用者行為分群
- 產品特性分群
- 製程參數樣態分類(前期分析)
通常用在: 還不知道怎麼分、想先看看資料長怎樣。
3 題模擬練習題
題目一:學習類型判斷(基本陷阱)
下列哪一項最正確描述 K-Means 聚類的特性?
A. 屬於監督式學習,需要事先提供正確標籤
B. 屬於非監督式學習,不需要標籤資料
C. 屬於半監督式學習,需要部分標籤
D. 屬於強化學習,透過回饋來調整分群
正確答案:B
詳解:
K-Means 的核心特徵是:
- 沒有「正確答案」
- 只根據資料之間的距離與相似度進行分群
因此它屬於非監督式學習。
A、C、D 都是在混淆不同學習類型。
題目二:K 值設定判斷(高頻陷阱)
關於 K-Means 中的 K 值,下列敘述何者正確?
A. K 值由模型自動學習,不需人為指定
B. K 值越大,分群結果一定越好
C. K 值需事先指定,且選擇不當會影響結果
D. K 值只能設定為 2 或 3
正確答案:C
詳解:
K-Means 的一個核心限制就是:
👉 K 必須事先由人決定。
- A 是常見誤解
- B 屬於直覺錯誤,K 過大反而會過度切割
- D 完全沒有依據
選擇不適當的 K,會讓分群失去意義。
題目三:資料特性適用性判斷(實務陷阱)
下列哪一種情況最不適合使用 K-Means 聚類?
A. 資料為連續數值型變數
B. 各群呈現近似球狀、大小相近
C. 資料中存在大量極端異常值
D. 需要快速處理大量資料
正確答案:C
詳解:
K-Means 使用「平均值」作為群中心,
對異常值非常敏感。
當資料中存在大量極端值時:
- 群中心會被拉偏
- 分群結果失真
A、B、D 都是 K-Means 的適合情境。
這一題是考試中非常典型的「適用性判斷題」。