說到「資料」,我們腦中常常浮現的都是一串串的數字,但你有沒有想過文字也是一種資料?
電腦的世界充滿著 01001 ,那它又是怎麼「讀懂」我們所說的話呢?
這個系列將從一個語言學學生的角度出發,帶你走進一個文科與理科交會的奇妙領域 —— 自然語言處理(Natural Language Processing)
用輕鬆科普的方式來聊 NLP 的基礎概念、經典方法與應用場景,希望讓毫無程式背景的小白也能一起理解!
引言 前一篇我們談了 Bag-of-Words (BoW),用統計詞頻的方式,把文本轉換成向量。不過 BoW 有一個問題,單純統計詞頻的方式,會看到一些常見詞(...
引言 在前幾篇的內容中,介紹了 Bag-of-Words 與 TF-IDF,這些把文本轉成向量的方法,但因為他們是用「詞頻統計」的方式,所以屬於 稀疏向量(sp...
引言 昨天我們介紹 Word2Vec,學會了怎麼把文字變成 語意向量。但這只是用數字來表示語意的第一步!語意可是比你想得更複雜許多~~還記得我們在本系列的第二篇...
引言 在前面的文章裡,我們聊了 NLP 是什麼、語料的前處理,也看過文字要怎麼轉換成數字。但是,這些都只是前置預備作業!真正要讓電腦能夠做各種 NLP 任務的關...
引言 大家可能會跟我有一樣的經驗,就是每天出門前都會糾結一個問題:「今天要不要帶傘?」帶傘的話,包包變好重;不帶的話,下雨就慘了...(但是身為政大的學生,包包...
引言 想像一下,你現在要決定「是否要出門打籃球?」你可能會透過幾個因素來評估,例如:「是否有同伴」、「天氣狀況」、「場地狀況」等等。所以在你的腦中,可能會經歷像...
引言 在前兩篇的內容,我們看過了 Naive Bayes(用機率來猜分類),還有 Decision Tree & Random Forest(用問問題來...
引言 在前一篇文章,我們介紹了 Logistic Regression 🚪傳送門,它的做法是用 Sigmoid function 把資料轉成機率,再依機率來進行...
引言 人腦大約有 860 億顆神經元,這些神經元彼此透過突觸相連,可以將訊號接收跟發送出去。在這樣龐大的神經元數量的連接下形成一個非常複雜的網路,來維持大腦的運...
引言 昨天我們認識了神經網路的基本概念包括:神經元如何接收輸入、加權求和,透過激活函數如何轉換成非線性模式並產生輸出。 一個神經元的計算會需要有輸入特徵 𝑥,...