中文名稱:邏輯迴歸 英文名稱:Logistic Regression
📌 定義(Definition)
邏輯迴歸(Logistic Regression) 是一種監督式、鑑別式學習模型,主要用來處理分類問題,最常見的是二元分類。 邏輯回歸不是回歸模型,是分類模型。
⭐原理與技術
- 假設數據與輸出標籤之間存在線性關係,並透過最大似然估計(Maximum Likelihood Estimation, MLE)來學習最優參數。
- 學習:P(y=1∣x),在給定輸入特徵 x 的情況下,屬於某一類的機率。
- 步驟:
- 先做線性組合
- 再把結果丟進 Sigmoid 函數
- 輸出一個 介於 0 和 1 之間的機率 最後再用門檻值/閾值(通常 0.5)轉成類別。
- 常搭配交叉熵損失函數
優點
- 結構簡單、訓練快
- 輸出為機率,容易解釋
- 不易過擬合(尤其搭配正則化(Regularization))
- 適合作為基準模型(Baseline)
缺點
- 只能學線性邊界 邏輯迴歸的決策邊界是線性的,在特徵空間中是一條直線(或高維的平面),如果資料本身高度非線性,單純的邏輯迴歸就會欠擬合。
- 對特徵工程依賴高
- 無法處理複雜非線性關係(除非手動擴充特徵)
🔗 應用領域
- 醫療診斷:根據患者的年齡、血壓等健康指標,預測罹患特定疾病的可能性。
- 市場營銷:分析顧客行為,預測購買轉換率,進而進行個人化推薦。
- 金融風險評估:根據用戶的信用記錄和行為數據,評估貸款違約風險。
3 題模擬練習題
題目一:模型性質判斷(名稱陷阱)
關於邏輯迴歸(Logistic Regression),下列敘述何者正確?
A. 邏輯迴歸是用來預測連續數值的回歸模型
B. 邏輯迴歸屬於非監督式學習
C. 邏輯迴歸是監督式的分類模型
D. 邏輯迴歸屬於生成式模型
正確答案:C
詳解:
雖然名稱中有「迴歸」, 但 Logistic Regression 的輸出是類別機率,最終用於分類判斷,因此屬於:監督式學習、鑑別式分類模型
A、B、D 都是典型的名稱與類型混淆。
題目二:損失函數選擇判斷(高頻陷阱)
在訓練邏輯迴歸模型時,下列哪一個損失函數最常使用?
A. 平均平方誤差(MSE)
B. 平均絕對誤差(MAE)
C. 交叉熵損失
D. 準確率(Accuracy)
正確答案:C
詳解:
Logistic Regression 預測的是「機率」, 因此最適合的損失函數是: **交叉熵損失
- MSE、MAE 適合回歸問題
- Accuracy 是評估指標,不能作為損失函數
題目三:模型能力與適用性判斷(實務陷阱)
若資料的類別分布呈現明顯的非線性邊界,而未進行任何特徵轉換或擴充,直接使用 Logistic Regression 進行分類,最可能發生的情況是什麼?
A. 模型容易過擬合
B. 模型容易欠擬合
C. 模型一定能正確分類
D. 模型會自動轉為非線性
正確答案:B
詳解:
Logistic Regression 的決策邊界是線性的,若資料本身具有複雜非線性結構,模型將無法捕捉關鍵規律。
因此最常見的問題是:👉 欠擬合,而非過擬合。