中文名稱:數據轉換 英文名稱:Data Transformation
📌 定義(Definition)
將數據轉換成適合分析的格式。
⭐原理與技術
-
數據格式轉換(Data Format Transformation)
將數據從一種格式轉換為另一種格式,例如 CSV 轉換為 JSON、XML 轉換為 Parquet 等。
補充:格式轉換常用於資料整合與跨系統傳輸。 -
數據類型轉換(Data Type Conversion)
將數據從一種數據類型轉換為另一種數據類型,例如字串轉換為數值、浮點數轉整數。
補充:可避免類型錯誤,並確保後續分析的正確性。 -
數據正規化/標準化(Data Normalization/Standardization)
將數值數據縮放到特定範圍,以消除不同變數間的單位差異,使數據具有可比性。 Z-score 、 Min-max- 資料標準化是將資料轉換為平均值為 0、標準差為 1 的分佈。這種方法特別適合在資料存在不同單位或量級的情況下,保持資料的相對分佈特性,且對離群值不敏感。
- 資料正規化是將資料壓縮到 [0, 1] 或 [-1, 1] 的區間,這在資料範圍不一致的情況下很有用。 補充:常用於機器學習模型,避免因數值尺度不同影響訓練結果。
-
數據離散化(Data Discretization)
將連續型數據轉換為離散的區間或類別,例如將年齡分為「青年」、「中年」、「老年」。
補充:有助於簡化數據模型,或用於決策樹等分類演算法。 -
數據縮減(Data Reduction)
透過特徵選擇、特徵提取或降維技術,如主成分分析(PCA),減少數據的維度或體積,提高分析效率並節省儲存空間。
補充:降維可減少噪音和冗餘,提高模型效能。 -
數據清洗(Data Cleaning)
處理缺失值、異常值和重複值,確保數據品質。
補充:清洗是數據轉換中不可或缺的步驟,影響後續分析結果的準確性。 -
數據整合(Data Integration)
將來自多個資料的數據合併,形成統一的數據集。
補充:常用於跨系統資料分析與大數據應用。 -
特徵衍生:將原始數據轉換成新特徵,例如日期拆分成:年、月、日、星期
-
數據轉換為特徵(Data Transformation to Features) 將原始資料(raw data)轉換為機器學習模型可理解與處理的數值型特徵的過程。由於多數機器學習模型只能處理數值資料,因此需要透過編碼、向量化或文本處理等方法,將類別資料、文字資料或非結構化資料轉換成可計算的特徵表示。 常用:Label Encoding、 One-Hot Encoding
🔗 應用領域
- 商業智能(Business Intelligence)與報表分析
- 機器學習與人工智慧模型建置
- 大數據處理與數據倉儲
- 醫療健康資料分析
- 金融風險管理與詐欺偵測
- 電子商務客戶行為分析
- 物聯網(IoT)數據處理
- 自然語言處理(NLP)前置作業
3 題模擬練習題
-
以下哪一項不屬於數據轉換中的「數據類型轉換」?
A. 將字串 “123” 轉為整數 123
B. 將 CSV 格式轉為 JSON 格式
C. 將浮點數 3.14 轉為整數 3
D. 將布林值 True 轉為字串 “True”答案:B
解析: CSV 轉 JSON 屬於格式轉換,不是類型轉換。 -
數據正規化的主要目的為何?
A. 減少數據維度
B. 將數據轉換為類別型變數
C. 使不同變數具有可比性,消除單位差異
D. 清理缺失值答案:C
解析: 正規化是將數據縮放到相同範圍,方便比較與模型訓練。 -
主成分分析(PCA)在數據轉換中主要用於?
A. 數據格式轉換
B. 數據清洗
C. 數據縮減與降維
D. 數據離散化答案:C
解析: PCA 是一種降維技術,用於減少數據維度,提高效率。
類別型變數編碼(Categorical Encoding)
在數據分析與機器學習中,類別型變數(Categorical Variables)需轉換為數值型態,才能被模型接受。常見的編碼方法如下:
-
Label Encoding(標籤編碼)
將類別變數的每個類別映射為一個整數標籤,例如:顏色:紅色 → 0,綠色 → 1,藍色 → 2特點
- 簡單直觀,節省空間。
- 適合有順序性的類別資料(Ordinal Data)。
- 缺點:對無序類別可能引入錯誤的順序關係,影響模型效果。
-
One-hot Encoding(獨熱編碼) 將每個類別轉換成一個新的二進位欄位,位值為 0 或 1 表示該類別是否存在,例如:
顏色:紅色 → [1, 0, 0],綠色 → [0, 1, 0],藍色 → [0, 0, 1]特點
- 適用於無序類別(Nominal Data)。
- 不會引入類別間的大小或順序關係。
- 可能導致高維度(維度爆炸)問題,需視情況處理。
補充說明
- 在實務中,選擇 Label Encoding 或 One-hot Encoding 需根據資料性質及模型需求決定。
- 有些模型(如決策樹、隨機森林)對類別順序不敏感,可直接用 Label Encoding;而線性模型、神經網路通常較適合 One-hot Encoding。
- 可搭配其他技術如 Embedding 向量,進一步優化類別變數的數值表示。