中文名稱:K 均值聚類 英文名稱:K-Means Clustering

📌 定義(Definition)

K 均值聚類是一種非監督式學習方法,用來在「沒有標籤」的情況下, 把資料自動分成 K 個群組(Cluster),使群內相似、群間不同。

⭐原理與技術

  • K-Means 的目標是讓:
    • 同一群內的資料彼此很像
    • 不同群之間的資料差異很大
  • 透過「距離」來判斷像不像,最常用的是 歐氏距離
  • 每一群的中心點,就是該群所有資料的「平均值(Mean)」。 資料型態必須能夠平均 (數值型資料)。

流程

  1. 先指定 K 值(要分幾群)
  2. 隨機選 K 個中心點(Centroids)
  3. 把每筆資料分到最近的中心
  4. 重新計算每一群的中心點
    重複 3、4,直到分群結果不再變化。

怎麼選 K 值?

  • 必須由人先決定,非模型自動算出。
  • 常見判斷方式
    • Elbow Method(肘部法)
    • 輪廓係數(Silhouette Score)
    • 業務或實務需求先決(我想要分成幾組)

優點

  • 概念簡單、好理解
  • 計算速度快
  • 適合大量資料
  • 常作為探索分析的第一步
  • K-means常與 PCA(降維)、 Elbow method(選 k值)等方法結合,具有一定彈性。對於球形且大小密度接近的群體,

限制

  • 必須先指定 K
  • 對初始中心點敏感
  • 對異常值(Outliers)非常敏感
  • 不適合非球狀或大小差異很大的群
  • 只適合數值型資料

🔗 應用領域

  • 客戶分群
  • 使用者行為分群
  • 產品特性分群
  • 製程參數樣態分類(前期分析)

通常用在: 還不知道怎麼分、想先看看資料長怎樣。

3 題模擬練習題

題目一:學習類型判斷(基本陷阱)

下列哪一項最正確描述 K-Means 聚類的特性?

A. 屬於監督式學習,需要事先提供正確標籤
B. 屬於非監督式學習,不需要標籤資料
C. 屬於半監督式學習,需要部分標籤
D. 屬於強化學習,透過回饋來調整分群

正確答案:B

詳解:
K-Means 的核心特徵是:

  • 沒有「正確答案」
  • 只根據資料之間的距離與相似度進行分群

因此它屬於非監督式學習
A、C、D 都是在混淆不同學習類型。

題目二:K 值設定判斷(高頻陷阱)

關於 K-Means 中的 K 值,下列敘述何者正確

A. K 值由模型自動學習,不需人為指定
B. K 值越大,分群結果一定越好
C. K 值需事先指定,且選擇不當會影響結果
D. K 值只能設定為 2 或 3

正確答案:C

詳解:
K-Means 的一個核心限制就是:
👉 K 必須事先由人決定。

  • A 是常見誤解
  • B 屬於直覺錯誤,K 過大反而會過度切割
  • D 完全沒有依據

選擇不適當的 K,會讓分群失去意義。

題目三:資料特性適用性判斷(實務陷阱)

下列哪一種情況最不適合使用 K-Means 聚類?

A. 資料為連續數值型變數
B. 各群呈現近似球狀、大小相近
C. 資料中存在大量極端異常值
D. 需要快速處理大量資料

正確答案:C

詳解:
K-Means 使用「平均值」作為群中心,
異常值非常敏感

當資料中存在大量極端值時:

  • 群中心會被拉偏
  • 分群結果失真

A、B、D 都是 K-Means 的適合情境。
這一題是考試中非常典型的「適用性判斷題」。