iT邦幫忙

鐵人檔案

2021 iThome 鐵人賽
回列表
AI & Data

當自然語言處理遇上深度學習 系列

晚餐沒有頭緒?召喚一下Google Assistant馬上獲得靈感。疫情期間宅在家上Netflix追劇,平台總能掌握自己的喜好推薦新的影集。寫畢業論文卻苦於自己的菜英文,Grammarly還能幫你檢查文法和甚至建議你更道地的用詞,讓指導教授對你的文章嘖嘖稱奇。得力於蓬勃發展的深度學習演算法,自然語言處理使得我們的生活充滿便利。本系列前半部分將介紹自然語言處理的基本流程與重要技術,後半部分則著重在神經機器翻譯(neural machine translation)系統的開發實務。接下來的30天,我會按照上述脈絡整理我所學習的重點,盡量以淺顯易懂的方式呈現給大家。
  
  

鐵人鍊成 | 共 33 篇文章 | 28 人訂閱 訂閱系列文 RSS系列文
DAY 1

[序章] 自然語言處理初探

前言 生活在網際網路以及智慧型手機普及的今天,與外國朋友聊天、出國旅行、與國外客戶開商務會議,縱使不熟悉當地語言,只要開啟Google Translate,語言...

2021-09-09 ‧ 由 Friedrich1942 分享
DAY 2

[自然語言處理基礎] Regular Expression (I): 「Ctrl + F」立馬找出關鍵字

關鍵字搜尋與自然語言處理的關聯 在正式介紹標題所提到的regular expression之前,我們先來聊聊為什麼搜尋關鍵字與自然語言處理有關。在瀏覽網頁時,我...

2021-09-10 ‧ 由 Friedrich1942 分享
DAY 3

[自然語言處理基礎] Regular Expression (II): 文本清理

前言 今天我們將繼續介紹正則表達式,這次的任務圍繞在自然語言處理中流程的文本清理(text cleaning)。我們或許都曾聽過Garbage in, garb...

2021-09-11 ‧ 由 Friedrich1942 分享
DAY 4

[自然語言處理基礎] 文本預處理(I):斷開文本的鎖練

前言 上次我們提到原始文本往往夾帶大量無意義的字符,於是我們利用了正則表達式來清理資料。然而此時的文本由大量的語句所構成,各個語句中又帶有複雜的文法結構(例如倒...

2021-09-12 ‧ 由 Friedrich1942 分享
DAY 5

[自然語言處理基礎] 文本預處理(II):正規化,就是一視同仁

前言 上次我們斷開了英文文本的鎖鏈,將龐大的字串拆解成成為詞條的小單元。語言中仍有時態變化、單複數型態、甚至是口語等複雜甚至隨機的因素不利於後續的文字處理,因此...

2021-09-13 ‧ 由 Friedrich1942 分享
DAY 6

[自然語言處理基礎] 語法分析與資訊檢索 (I)

前言 前一回我們利用 WordNetLemmatizer 來還原詞條的衍生形體,在這之中我們引入了一項神奇武器而順利地還原詞形,今天我們就來揭開它神秘面紗!...

2021-09-14 ‧ 由 Friedrich1942 分享
DAY 7

[自然語言處理基礎] 語法分析與資訊檢索 (II)

前言 上一回我們將詞性標籤依序排列建構出片語組塊( phrase chunk ),描繪出相應的分析樹,藉由簡單的文法結構來分析句子。當我們在進行語塊分析時並不會...

2021-09-15 ‧ 由 Friedrich1942 分享
DAY 8

[常見的自然語言處理技術] Bag-of-Words Model:簡單直觀的統計語言模型

前言 當我們要使用機器學習演算法來解決自然語言的問題,我們首先必須將文字進行量化( quantification )。而透過數字來表示語言的演算法,就稱之為語言...

2021-09-16 ‧ 由 Friedrich1942 分享
DAY 9

[常見的自然語言處理技術] N-Gram Model 與關鍵字預測 (I)

前言 當我們在 Google 搜尋引擎輸入 The most incredible 時,系統會推薦你高熱度的關鍵字:我們不禁產生疑問:系統是如何預測關鍵字的呢?...

2021-09-17 ‧ 由 Friedrich1942 分享
DAY 10

[常見的自然語言處理技術] N-Gram Model 與關鍵字預測 (II)

前言 上次我們提到,語言模型( language model, LM )就是賦予一段文句機率值。在自然語言處理的許多情境中皆仰賴語言模型: 拼字檢查( Spe...

2021-09-18 ‧ 由 Friedrich1942 分享