中文名稱：數據轉換英文名稱：Data Transformation

📌 定義（Definition）

將數據轉換成適合分析的格式。

⭐原理與技術

數據格式轉換（Data Format Transformation）
將數據從一種格式轉換為另一種格式，例如 CSV 轉換為 JSON、XML 轉換為 Parquet 等。
補充：格式轉換常用於資料整合與跨系統傳輸。
數據類型轉換（Data Type Conversion）
將數據從一種數據類型轉換為另一種數據類型，例如字串轉換為數值、浮點數轉整數。
補充：可避免類型錯誤，並確保後續分析的正確性。
數據正規化/標準化（Data Normalization/Standardization）
將數值數據縮放到特定範圍，以消除不同變數間的單位差異，使數據具有可比性。 Z-score 、 Min-max
- 資料標準化是將資料轉換為平均值為 0、標準差為 1 的分佈。這種方法特別適合在資料存在不同單位或量級的情況下，保持資料的相對分佈特性，且對離群值不敏感。
- 資料正規化是將資料壓縮到 [0, 1] 或 [-1, 1] 的區間，這在資料範圍不一致的情況下很有用。 補充：常用於機器學習模型，避免因數值尺度不同影響訓練結果。
數據離散化（Data Discretization）
將連續型數據轉換為離散的區間或類別，例如將年齡分為「青年」、「中年」、「老年」。
補充：有助於簡化數據模型，或用於決策樹等分類演算法。
數據縮減（Data Reduction）
透過特徵選擇、特徵提取或降維技術，如主成分分析（PCA），減少數據的維度或體積，提高分析效率並節省儲存空間。
補充：降維可減少噪音和冗餘，提高模型效能。
數據清洗（Data Cleaning）
處理缺失值、異常值和重複值，確保數據品質。
補充：清洗是數據轉換中不可或缺的步驟，影響後續分析結果的準確性。
數據整合（Data Integration）
將來自多個資料的數據合併，形成統一的數據集。
補充：常用於跨系統資料分析與大數據應用。
特徵衍生：將原始數據轉換成新特徵，例如日期拆分成：年、月、日、星期
數據轉換為特徵（Data Transformation to Features） 將原始資料（raw data）轉換為機器學習模型可理解與處理的數值型特徵的過程。由於多數機器學習模型只能處理數值資料，因此需要透過編碼、向量化或文本處理等方法，將類別資料、文字資料或非結構化資料轉換成可計算的特徵表示。常用：Label Encoding、 One-Hot Encoding

🔗 應用領域

商業智能（Business Intelligence）與報表分析
機器學習與人工智慧模型建置
大數據處理與數據倉儲
醫療健康資料分析
金融風險管理與詐欺偵測
電子商務客戶行為分析
物聯網（IoT）數據處理
自然語言處理（NLP）前置作業

3 題模擬練習題

以下哪一項不屬於數據轉換中的「數據類型轉換」？
A. 將字串 “123” 轉為整數 123
B. 將 CSV 格式轉為 JSON 格式
C. 將浮點數 3.14 轉為整數 3
D. 將布林值 True 轉為字串 “True”

答案：B
解析： CSV 轉 JSON 屬於格式轉換，不是類型轉換。
數據正規化的主要目的為何？
A. 減少數據維度
B. 將數據轉換為類別型變數
C. 使不同變數具有可比性，消除單位差異
D. 清理缺失值

答案：C
解析： 正規化是將數據縮放到相同範圍，方便比較與模型訓練。
主成分分析（PCA）在數據轉換中主要用於？
A. 數據格式轉換
B. 數據清洗
C. 數據縮減與降維
D. 數據離散化

答案：C
解析： PCA 是一種降維技術，用於減少數據維度，提高效率。

類別型變數編碼（Categorical Encoding）

在數據分析與機器學習中，類別型變數（Categorical Variables）需轉換為數值型態，才能被模型接受。常見的編碼方法如下：

Label Encoding（標籤編碼）
將類別變數的每個類別映射為一個整數標籤，例如：
```
顏色：紅色 → 0，綠色 → 1，藍色 → 2
```
特點
- 簡單直觀，節省空間。
- 適合有順序性的類別資料（Ordinal Data）。
- 缺點：對無序類別可能引入錯誤的順序關係，影響模型效果。
One-hot Encoding（獨熱編碼） 將每個類別轉換成一個新的二進位欄位，位值為 0 或 1 表示該類別是否存在，例如：
```
顏色：紅色 → [1, 0, 0]，綠色 → [0, 1, 0]，藍色 → [0, 0, 1]
```
特點
- 適用於無序類別（Nominal Data）。
- 不會引入類別間的大小或順序關係。
- 可能導致高維度（維度爆炸）問題，需視情況處理。

補充說明

在實務中，選擇 Label Encoding 或 One-hot Encoding 需根據資料性質及模型需求決定。
有些模型（如決策樹、隨機森林）對類別順序不敏感，可直接用 Label Encoding；而線性模型、神經網路通常較適合 One-hot Encoding。
可搭配其他技術如 Embedding 向量，進一步優化類別變數的數值表示。

KBP的AI應用規劃師筆記

探索

數據轉換

📌 定義（Definition）

⭐原理與技術

🔗 應用領域

3 題模擬練習題

類別型變數編碼（Categorical Encoding）

補充說明

關係圖譜

目錄

反向連結