說到「資料」,我們腦中常常浮現的都是一串串的數字,但你有沒有想過文字也是一種資料?
電腦的世界充滿著 01001 ,那它又是怎麼「讀懂」我們所說的話呢?
這個系列將從一個語言學學生的角度出發,帶你走進一個文科與理科交會的奇妙領域 —— 自然語言處理(Natural Language Processing)
用輕鬆科普的方式來聊 NLP 的基礎概念、經典方法與應用場景,希望讓毫無程式背景的小白也能一起理解!
引言 升大四那年暑假在思考著人生的下一步時,偶然接觸到了「自然語言處理 NLP」這個 fancy 的名詞。當時一方面是被「外文系也能跟 AI 扯上關係」的噱頭燒...
引言 在這個數位化、大數據的時代,大家應該多多少少有有聽過 資料探勘(Data Minig),當我們想到「資料」,通常第一直覺可能是想到數字或表格,整整齊齊地躺...
引言 下圖是一則電影評論的留言,大家乍看之下,會覺得這是一則好評還是負評呢?圖片來源:Dcard 即便是我們看這則評論,在缺乏上下文的情況下,可能也會覺得有點難...
引言 近年來 Thread 是個很流行的社群媒體,相信大家在滑脆的時候應該會覺得密密麻麻的文字,看得非常眼花撩亂... 有的貼文會參雜很多表情符號 😘🤡💅🏻...
引言 在前一天的內容,我們談到了 Regex 是一套怎樣的規則,以及它是如何用來匹配文字。前一天內容傳送門🚪 但是光知道規則還不夠,我們需要工具來操作這些規則,...
引言 接下來要來介紹的是 NLP 中,不可或缺的「斷詞」,也可以說「分詞」!但今天我們不做程式的實作,而是先釐清兩個常見,但可能會有點小混淆的概念:Tokeni...
引言 昨天我們談到 Tokenization 跟 Segmentation 的差異,知道了拆文字有很多種方式:字、詞、子詞。在中文裡,因為是以字(Charact...
引言 詞性標註 Part-of-Speech (POS) tagging 是 NLP 中非常基礎和重要的任務。POS tagging 的目的是為每個詞語標上它的...
引言 我們知道電腦無法像人一樣直接理解文字。要讓電腦「看懂」文字,我們必須先把文字轉換成數字的形式,才能進行後續的分析或建模。 在 主題三:特徵與表示 中,我會...
引言 在前一天的內容,我們了解了向量(vector)與 embedding 的概念,知道文字必須轉換成數字,才能讓電腦理解與運算。 今天我們要介紹 Bag-of...