iT邦幫忙

2022 iThome 鐵人賽

DAY 18
0
AI & Data

文理組人都能上手的入門 NLP(自然語言處理)系列 第 19

[Day 18] 監督式機器學習模型:身世之謎與自我追尋-羅吉斯迴歸(Logistic Regression)

  • 分享至 

  • xImage
  •  

  大家早安,今天要帶大家認識第二個監督式機器學習的經典模型-羅吉斯迴歸(Logistic Regression)。雖然羅吉斯迴歸叫做羅吉斯迴歸,但他其實不是迴歸模型,而是一個分類模型。那他為什麼不叫羅吉斯分類要叫羅吉斯迴歸呢?因為他是線性迴歸生下來的小孩。既然羅吉斯迴歸是線性迴歸生下來的小孩,那為了更了解他,我們就有必要研究一下他的家庭背景,所以先來看看線性迴歸到底是何方神聖吧。

線性迴歸

  看到線性性迴歸四個字,可能已經有人開始panic,想說自己怎麼可能會懂這種看起來充滿數學運算的高深理論呢?但其實最基本的線性迴歸概念就藏在國中數學課本裡面(不知道這樣有沒有讓他看起來親切一點)。在國中數學課本裡面,我們需要透過座標平面上的兩個點來求出他們連成線後的直線方程式。計算的方法是把他們分別帶入y=ax+b裡面再求出a跟b的值。但現實生活中根本沒有這麼好康的事,我們很難找到一條線可以完全吻合所有資料點,就像計畫好的事情總是會出點差錯或是超出你的想像一樣。線性迴歸要做的事情就是找到一條最符合的線來代表資料點的分布趨勢。那我們要怎麼確定這條線是最好的那條線呢?很簡單,只要確定所有資料點跟他之間的距離加起來跟其他線比起來更小就行。因為這不是今天的重點,所以我們就不先深究怎麼計算。總之線性迴歸就是要找出一條跟資料點分布趨勢最接近的線。

羅吉斯迴歸(Logistic Regression)

  羅吉斯迴歸身為線性迴歸的小孩,當然也具備了找到那條線的能力,但是他很快就發現自己跟爸媽不一樣,不想當隨波逐流的爛好人。他的人生志業就是想當個分化人群的壞蛋,成為跟火箭隊一樣可愛又迷人的反派角色,所以他就帶著自己與生俱來的超能力去追尋自我了。然後為了感謝把超能力生給自己的父母,他還是把「迴歸」這個姓氏留下來了。

  也就是說,羅吉斯迴歸的目的不是要找出最符合資料點分布的那條線,而是要找出最能把資料點分成兩群的那條線。找出最能把資料分成兩群的線之後,他就能根據我們送進去新資料的特徵告訴我們這筆新資料分別屬於兩個類別的機率有多高了。
https://ithelp.ithome.com.tw/upload/images/20221003/20151687KkNvyZGVIU.png

  那麼這條線是怎麼被找出來的呢?當然跟y=ax+b有關,在進行分類任務的時候,x就是我們賦予資料點的特徵,所以真實進行計算的時候其實會有x1, x2, x3...個特徵。又因為每個特徵對於模型判斷分類結果具有不同的影響力,他們會得到不同的加權值,所以我們訓練羅吉斯迴歸模型的時候,想找的那條線實際上是:
https://ithelp.ithome.com.tw/upload/images/20221003/20151687ZRaHRdK3iB.png

  有了這條線,我們就可以把資料帶進去計算,當求出來的值比y大,我們就知道他應該是屬於線條上方那一類;反過來說,如果求出來的值比y小,就表示他屬於線條下方那一類。但是我們希望可以有一個更直觀的數字告訴我們目標資料點屬於其中一個分類的機率有多高,既然是機率的話,就需要他計算出來的直接於0到1之間。問題是我們上面那條公式怎麼看都不像可以把值控制在0到1之間,所以就需要一個可以幫我們達成目標,把值轉換成0到1之間的激發函數(activation function)。在使用羅吉斯迴歸的時候,我們習慣選擇sigmoid function(下面是示意圖)來完成轉換。
https://ithelp.ithome.com.tw/upload/images/20221003/201516879b263210Vk.png

  以上就是關於羅吉斯迴歸的簡單說明,他的優點在於計算量比較小,對電腦的負荷比較沒有那麼大。缺點是只適用在線性可分的資料上,但我們很難再拿到資料的當下去確認資料到底是不是線性可分,所以這是執行面上來講比較麻煩的部分。

https://ithelp.ithome.com.tw/upload/images/20221003/20151687ybr1juyjRk.png

  因為這篇的目的是理解羅吉斯迴歸的原理,不是公式拆解,所以省略了很多數學計算的部分。這些東西之後如果有機會的話會再慢慢補回來。BTW,關於激發函數,在深度學習的時候會更詳細介紹。明天會針對羅吉斯迴歸的實作跟上次還沒帶到的TF-IDF實作做示範,see you then。


上一篇
[Day 17] 監督式機器學習模型:傻白甜女主與她的包包-實作單純貝式分類器(Naive Bayes)與詞袋模型(Bag of Words)
下一篇
[Day 19] 監督式機器學習模型:誰芭比Q了嗎?-實作羅吉斯迴歸(Logistic Regression) & TF-IDF
系列文
文理組人都能上手的入門 NLP(自然語言處理)31
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言