今天要來和大家介紹另一個模型啦~它就是羅吉斯迴歸(Logistic Regression)。羅吉斯迴歸是一種統計模型,用於判斷事件發生的機率。它可尋找不同特徵之間的關係,再去計算某個特定結果(事件)的發生機率。
羅吉斯迴歸用於機器學習 (ML),是監督式學習的一種。類似線性迴歸,不同之處在於羅吉斯迴歸主要是找到一條線,讓資料可以分成兩類(分類);而線性迴歸主要是找到一條線,使每一點資料都盡量靠近這條線(取得最小誤差)。也就是說羅吉斯迴歸主要適用於二元分類,以介於0到1的機率(布林值)來呈現。而線性迴歸主要是預測,且是適用於預測數值型(連續的值),例如預測物價指數。與一般線性迴歸的依變項(Y)須為連續型變數不同,Logistic Regression 的依變項(Y)是類別變數,若是類別只有兩個,則為二元的邏輯式迴歸(Binary logistic regression),若是類別超過三個以上則為 Polytomous logistic regression,是複雜許多的模型。本篇主要介紹 Binary logistic regression。
羅吉斯回歸方程式將類別目標變數轉換為事件的 logit odds 值,也就是log⟮??/1−??⟯,來預測Z與預測變數間(X1~Xn)的線性關係。
公式為:
其中:
(1) ?? 為事件發生的機率值。
(2) ⟮??/1−??⟯為勝算比(Odds Ratio)。
但因為我們真正關心的是模型預測的事件發生機率值 ??。所以,預測結果則透過 sigmoid 函數將事件的logit odds轉換為 ?? (經過 sigmoid函數的轉換,讓最後的結果介於 0 與 1 之間)。轉換公式如下:
勝算比是來統計一個一件事情 (A) 以及另一件事情 (B)的關聯程度。OR 代表的是當 A 出現時,會發生 B 的機率以及不會發生 B 的機率的比率。
odds: 事件發生機率 / 事件不發生機率
odds ratio (OR): 與非特定情況之事件結果相比,在特定情況下會發生結果的比率。可用以確定特定情況是否影響事件的結果,並比較該結果的影響因素大小。
資料來源(https://www.tibco.com/zh-hant/reference-center/what-is-logistic-regression)
羅吉斯迴歸可以用於許多領域,幾乎涵蓋所有醫學和社會科學的領域。
衛生保健
創傷和醫學損傷嚴重度評級(TRISS),此模型以羅吉斯迴歸開發而成,使用諸如修正的創傷評分、損傷嚴重度評分、患者年齡等變數,來預測健康結果。這項技術甚至可用來預測某人患上某種疾病的機率,例如可以根據年齡、性別、體重和遺傳因素等變數,預測糖尿病和心臟病等疾病的發病率。
政治
羅吉斯迴歸也可用於預測選舉。這些預測是根據年齡、性別、居住地、社會地位、過往投票模式(解釋變數)等變數,產生投票結果預測(反應變數)。
行銷
羅吉斯迴歸可用於預測客戶詢價轉化為銷售的機率、訂閱開始或終止的機率,甚至是客戶對新產品系列的潛在興趣。
金融業
金融部門的應用以信用卡公司為例,信用卡公司使用羅吉斯迴歸來預測客戶未來遲繳的可能性,然後建立模型來判斷是否應該發行信用卡給客戶。該模型可以看出某位客戶是否會「違約」或「不違約」,這在銀行業中稱為「違約傾向模型」。
電子商務
電子商務公司大量投資於跨媒體廣告和促銷活動,很希望了解哪些活動最有效,以及最可能獲得潛在目標受眾響應的選項。此模型集將客戶分類為「反應者」或「非反應者」,所以此模型稱為「反應傾向模型」。
今天就先介紹到這邊,明天就正式進入實作部分!