中文名稱:數據轉換 英文名稱:Data Transformation

📌 定義(Definition)

將數據轉換成適合分析的格式。

⭐原理與技術

  • 數據格式轉換(Data Format Transformation)
    將數據從一種格式轉換為另一種格式,例如 CSV 轉換為 JSON、XML 轉換為 Parquet 等。
    補充:格式轉換常用於資料整合與跨系統傳輸。

  • 數據類型轉換(Data Type Conversion)
    將數據從一種數據類型轉換為另一種數據類型,例如字串轉換為數值、浮點數轉整數。
    補充:可避免類型錯誤,並確保後續分析的正確性。

  • 數據正規化/標準化(Data Normalization/Standardization)
    將數值數據縮放到特定範圍,以消除不同變數間的單位差異,使數據具有可比性。 Z-scoreMin-max

    • 資料標準化是將資料轉換為平均值為 0、標準差為 1 的分佈。這種方法特別適合在資料存在不同單位或量級的情況下,保持資料的相對分佈特性,且對離群值不敏感
    • 資料正規化是將資料壓縮到 [0, 1] 或 [-1, 1] 的區間,這在資料範圍不一致的情況下很有用。 補充:常用於機器學習模型,避免因數值尺度不同影響訓練結果。
  • 數據離散化(Data Discretization)
    將連續型數據轉換為離散的區間或類別,例如將年齡分為「青年」、「中年」、「老年」。
    補充:有助於簡化數據模型,或用於決策樹等分類演算法。

  • 數據縮減(Data Reduction)
    透過特徵選擇、特徵提取或降維技術,如主成分分析(PCA),減少數據的維度或體積,提高分析效率並節省儲存空間。
    補充:降維可減少噪音和冗餘,提高模型效能。

  • 數據清洗(Data Cleaning)
    處理缺失值、異常值和重複值,確保數據品質。
    補充:清洗是數據轉換中不可或缺的步驟,影響後續分析結果的準確性。

  • 數據整合(Data Integration)
    將來自多個資料的數據合併,形成統一的數據集。
    補充:常用於跨系統資料分析與大數據應用。

  • 特徵衍生:將原始數據轉換成新特徵,例如日期拆分成:年、月、日、星期

  • 數據轉換為特徵(Data Transformation to Features) 將原始資料(raw data)轉換為機器學習模型可理解與處理的數值型特徵的過程。由於多數機器學習模型只能處理數值資料,因此需要透過編碼、向量化或文本處理等方法,將類別資料、文字資料或非結構化資料轉換成可計算的特徵表示。 常用:Label EncodingOne-Hot Encoding

🔗 應用領域

  • 商業智能(Business Intelligence)與報表分析
  • 機器學習與人工智慧模型建置
  • 大數據處理與數據倉儲
  • 醫療健康資料分析
  • 金融風險管理與詐欺偵測
  • 電子商務客戶行為分析
  • 物聯網(IoT)數據處理
  • 自然語言處理(NLP)前置作業

3 題模擬練習題

  1. 以下哪一項不屬於數據轉換中的「數據類型轉換」?
    A. 將字串 “123” 轉為整數 123
    B. 將 CSV 格式轉為 JSON 格式
    C. 將浮點數 3.14 轉為整數 3
    D. 將布林值 True 轉為字串 “True”

    答案:B
    解析: CSV 轉 JSON 屬於格式轉換,不是類型轉換。

  2. 數據正規化的主要目的為何?
    A. 減少數據維度
    B. 將數據轉換為類別型變數
    C. 使不同變數具有可比性,消除單位差異
    D. 清理缺失值

    答案:C
    解析: 正規化是將數據縮放到相同範圍,方便比較與模型訓練。

  3. 主成分分析(PCA)在數據轉換中主要用於?
    A. 數據格式轉換
    B. 數據清洗
    C. 數據縮減與降維
    D. 數據離散化

    答案:C
    解析: PCA 是一種降維技術,用於減少數據維度,提高效率。

類別型變數編碼(Categorical Encoding)

在數據分析與機器學習中,類別型變數(Categorical Variables)需轉換為數值型態,才能被模型接受。常見的編碼方法如下:

  • Label Encoding(標籤編碼)
    將類別變數的每個類別映射為一個整數標籤,例如:

    顏色:紅色 → 0,綠色 → 1,藍色 → 2
    

    特點

    • 簡單直觀,節省空間。
    • 適合有順序性的類別資料(Ordinal Data)。
    • 缺點:對無序類別可能引入錯誤的順序關係,影響模型效果。
  • One-hot Encoding(獨熱編碼) 將每個類別轉換成一個新的二進位欄位,位值為 0 或 1 表示該類別是否存在,例如:

    顏色:紅色 → [1, 0, 0],綠色 → [0, 1, 0],藍色 → [0, 0, 1]
    

    特點

    • 適用於無序類別(Nominal Data)。
    • 不會引入類別間的大小或順序關係。
    • 可能導致高維度(維度爆炸)問題,需視情況處理。

補充說明

  • 在實務中,選擇 Label Encoding 或 One-hot Encoding 需根據資料性質及模型需求決定。
  • 有些模型(如決策樹、隨機森林)對類別順序不敏感,可直接用 Label Encoding;而線性模型、神經網路通常較適合 One-hot Encoding。
  • 可搭配其他技術如 Embedding 向量,進一步優化類別變數的數值表示。