第十三屆 優選

ai-and-data
當自然語言處理遇上深度學習
Friedrich1942

系列文章

DAY 1

[序章] 自然語言處理初探

前言 生活在網際網路以及智慧型手機普及的今天,與外國朋友聊天、出國旅行、與國外客戶開商務會議,縱使不熟悉當地語言,只要開啟Google Translate,語言...

DAY 2

[自然語言處理基礎] Regular Expression (I): 「Ctrl + F」立馬找出關鍵字

關鍵字搜尋與自然語言處理的關聯 在正式介紹標題所提到的regular expression之前,我們先來聊聊為什麼搜尋關鍵字與自然語言處理有關。在瀏覽網頁時,我...

DAY 3

[自然語言處理基礎] Regular Expression (II): 文本清理

前言 今天我們將繼續介紹正則表達式,這次的任務圍繞在自然語言處理中流程的文本清理(text cleaning)。我們或許都曾聽過Garbage in, garb...

DAY 4

[自然語言處理基礎] 文本預處理(I):斷開文本的鎖練

前言 上次我們提到原始文本往往夾帶大量無意義的字符,於是我們利用了正則表達式來清理資料。然而此時的文本由大量的語句所構成,各個語句中又帶有複雜的文法結構(例如倒...

DAY 5

[自然語言處理基礎] 文本預處理(II):正規化,就是一視同仁

前言 上次我們斷開了英文文本的鎖鏈,將龐大的字串拆解成成為詞條的小單元。語言中仍有時態變化、單複數型態、甚至是口語等複雜甚至隨機的因素不利於後續的文字處理,因此...

DAY 6

[自然語言處理基礎] 語法分析與資訊檢索 (I)

前言 前一回我們利用 WordNetLemmatizer 來還原詞條的衍生形體,在這之中我們引入了一項神奇武器而順利地還原詞形,今天我們就來揭開它神秘面紗!...

DAY 7

[自然語言處理基礎] 語法分析與資訊檢索 (II)

前言 上一回我們將詞性標籤依序排列建構出片語組塊( phrase chunk ),描繪出相應的分析樹,藉由簡單的文法結構來分析句子。當我們在進行語塊分析時並不會...

DAY 8

[常見的自然語言處理技術] Bag-of-Words Model:簡單直觀的統計語言模型

前言 當我們要使用機器學習演算法來解決自然語言的問題,我們首先必須將文字進行量化( quantification )。而透過數字來表示語言的演算法,就稱之為語言...

DAY 9

[常見的自然語言處理技術] N-Gram Model 與關鍵字預測 (I)

前言 當我們在 Google 搜尋引擎輸入 The most incredible 時,系統會推薦你高熱度的關鍵字:我們不禁產生疑問:系統是如何預測關鍵字的呢?...

DAY 10

[常見的自然語言處理技術] N-Gram Model 與關鍵字預測 (II)

前言 上次我們提到,語言模型( language model, LM )就是賦予一段文句機率值。在自然語言處理的許多情境中皆仰賴語言模型: 拼字檢查( Spe...