中文名稱:獨熱編碼 英文名稱:One-Hot Encoding
📌 定義(Definition)
One-Hot Encoding 是一種將「類別資料(categorical data)」轉換成「數值向量」的編碼方式。
其核心概念是: 每個類別用一個向量表示,只有對應類別的位置為 1,其他位置全部為 0。
因此每個向量中 只有一個 1,其餘都是 0,所以稱為 One-Hot(只有一個熱點)。
⭐原理與技術
基本範例
假設有三個類別:
- 貓
- 狗
- 鳥
則 One-Hot 表示為:
| 類別 | One-Hot 向量 |
|---|---|
| 貓 | [1, 0, 0] |
| 狗 | [0, 1, 0] |
| 鳥 | [0, 0, 1] |
| 向量長度 = 類別數量 |
為什麼需要 One-Hot
機器學習模型 無法理解文字類別,只能處理數字。 如果直接用數字表示:
| 類別 | 數字 |
|---|---|
| 貓 | 1 |
| 狗 | 2 |
| 鳥 | 3 |
模型可能會誤以為: 鳥 > 狗 > 貓(存在大小關係),但實際上 類別之間沒有大小關係。 One-Hot 的優點就是:
- 不會產生大小關係
- 每個類別彼此獨立
🔗 應用領域
- 在 多分類問題(Multi-class classification) 中,真實標籤通常使用 One-Hot。