iT邦幫忙

2022 iThome 鐵人賽

DAY 16
0
AI & Data

語言學與NLP系列 第 16

Day 16 羅吉斯迴歸 Logistic Regression 介紹篇

  • 分享至 

  • xImage
  •  

今天要來和大家介紹另一個模型啦~它就是羅吉斯迴歸(Logistic Regression)。羅吉斯迴歸是一種統計模型,用於判斷事件發生的機率。它可尋找不同特徵之間的關係,再去計算某個特定結果(事件)的發生機率。

Logistic regression(羅吉斯迴歸) vs Linear regression(線性迴歸)

羅吉斯迴歸用於機器學習 (ML),是監督式學習的一種。類似線性迴歸,不同之處在於羅吉斯迴歸主要是找到一條線,讓資料可以分成兩類(分類);而線性迴歸主要是找到一條線,使每一點資料都盡量靠近這條線(取得最小誤差)。也就是說羅吉斯迴歸主要適用於二元分類,以介於0到1的機率(布林值)來呈現。而線性迴歸主要是預測,且是適用於預測數值型(連續的值),例如預測物價指數。與一般線性迴歸的依變項(Y)須為連續型變數不同,Logistic Regression 的依變項(Y)是類別變數,若是類別只有兩個,則為二元的邏輯式迴歸(Binary logistic regression),若是類別超過三個以上則為 Polytomous logistic regression,是複雜許多的模型。本篇主要介紹 Binary logistic regression。

p

圖片來源(https://chih-sheng-huang821.medium.com/%E6%A9%9F%E5%99%A8-%E7%B5%B1%E8%A8%88%E5%AD%B8%E7%BF%92-%E7%BE%85%E5%90%89%E6%96%AF%E5%9B%9E%E6%AD%B8-logistic-regression-aff7a830fb5d)

羅吉斯迴歸可能的假設

  • 在二元羅吉斯迴歸中,因為反應變數必須是二元的,所以結果不是這個,就是另一個。
  • 期望結果以 1 表示,非期望結果以 0 表示。
  • 只能包含有意義的變數。
  • 勝算比和獨立變數之間必須是線性相關。

羅吉斯迴歸的公式

羅吉斯回歸方程式將類別目標變數轉換為事件的 logit odds 值,也就是log⟮??/1−??⟯,來預測Z與預測變數間(X1~Xn)的線性關係。

公式為:

??=log⟮??1−??⟯=?0+?1∗?1+…+??∗??

其中:

(1) ?? 為事件發生的機率值。

(2) ⟮??/1−??⟯為勝算比(Odds Ratio)。

但因為我們真正關心的是模型預測的事件發生機率值 ??。所以,預測結果則透過 sigmoid 函數將事件的logit odds轉換為 ?? (經過 sigmoid函數的轉換,讓最後的結果介於 0 與 1 之間)。轉換公式如下:

si

什麼是勝算比?

勝算比是來統計一個一件事情 (A) 以及另一件事情 (B)的關聯程度。OR 代表的是當 A 出現時,會發生 B 的機率以及不會發生 B 的機率的比率。

odds: 事件發生機率 / 事件不發生機率
odds ratio (OR): 與非特定情況之事件結果相比,在特定情況下會發生結果的比率。可用以確定特定情況是否影響事件的結果,並比較該結果的影響因素大小。

or

Logistic Regression 的應用

資料來源(https://www.tibco.com/zh-hant/reference-center/what-is-logistic-regression)

羅吉斯迴歸可以用於許多領域,幾乎涵蓋所有醫學和社會科學的領域。

  1. 衛生保健
    創傷和醫學損傷嚴重度評級(TRISS),此模型以羅吉斯迴歸開發而成,使用諸如修正的創傷評分、損傷嚴重度評分、患者年齡等變數,來預測健康結果。這項技術甚至可用來預測某人患上某種疾病的機率,例如可以根據年齡、性別、體重和遺傳因素等變數,預測糖尿病和心臟病等疾病的發病率。

  2. 政治
    羅吉斯迴歸也可用於預測選舉。這些預測是根據年齡、性別、居住地、社會地位、過往投票模式(解釋變數)等變數,產生投票結果預測(反應變數)。

  3. 行銷
    羅吉斯迴歸可用於預測客戶詢價轉化為銷售的機率、訂閱開始或終止的機率,甚至是客戶對新產品系列的潛在興趣。

  4. 金融業
    金融部門的應用以信用卡公司為例,信用卡公司使用羅吉斯迴歸來預測客戶未來遲繳的可能性,然後建立模型來判斷是否應該發行信用卡給客戶。該模型可以看出某位客戶是否會「違約」或「不違約」,這在銀行業中稱為「違約傾向模型」。

  5. 電子商務
    電子商務公司大量投資於跨媒體廣告和促銷活動,很希望了解哪些活動最有效,以及最可能獲得潛在目標受眾響應的選項。此模型集將客戶分類為「反應者」或「非反應者」,所以此模型稱為「反應傾向模型」。

今天就先介紹到這邊,明天就正式進入實作部分!


上一篇
Day 15 支援向量機 Support Vector Machine 語言特徵相關實作篇
下一篇
Day 17 羅吉斯迴歸 Logistic Regression 實作篇
系列文
語言學與NLP30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言