iT邦幫忙

鐵人檔案

2021 iThome 鐵人賽
回列表
自我挑戰組

30天初步了解自然語言處理-自學筆記 系列

NLP模型最近越來越紅,也越來越多應用於企業當中,希望藉由30天的時間,好好整理一下過去自己學習到的自然語言處理相關知識

鐵人鍊成 | 共 30 篇文章 | 16 人訂閱 訂閱系列文 RSS系列文
DAY 11

[Day11] 文本/詞表示方式(二)-BOW與TFIDF

一. BOW BOW的全名為Bag-of-words,中文是'一袋文字',意思就是將詞都丟進一個袋子裡,所以又稱'詞袋'模型,假設有n個句子(或文章),總共有m...

2021-09-11 ‧ 由 eating 分享
DAY 12

[Day12] 文本/詞表示方式(三)-TFIDF實作

一. 序 這篇主要用python實作TFIDF,來表示文本的方式 二. 載入套件與文本 主要利用jieba斷詞 import jieba import ma...

2021-09-12 ‧ 由 eating 分享
DAY 13

[Day13] 文本/詞表示方式(四)-共現矩陣與降維

ㄧ. 前言 前面有說明如何運用TFIDF與BOW來表示一個句子/文本的表示方式,但若以BOW這樣的方式並沒有考慮到句子/文本中上下文的特性,共現矩陣就是利用分佈...

2021-09-13 ‧ 由 eating 分享
DAY 14

[Day14] 文本/詞表示方式(五)-word2vec

一. 前言 這篇是word2vec的paper,網址:https://arxiv.org/pdf/1301.3781.pdf 其實文字轉向量這件事在很久之前就有...

2021-09-14 ‧ 由 eating 分享
DAY 15

[Day15] 文本/詞表示方式(五)-實作word2vec

一. gensim gensim是一個 NLP 的函式庫,他不只可以訓練word2vec這樣的語言模型,像是doc2vec或是其他的詞向量模型,如 Glove...

2021-09-15 ‧ 由 eating 分享
DAY 16

[Day16] NLP會用到的模型(一)-前言

一. 神經網路 目前許多強大的NLP Model現在都是以神經網路為基礎的模型,所以需要先了解以及認識神經網路的架構,一個神經網路的圖如下,X經過一個Neuro...

2021-09-16 ‧ 由 eating 分享
DAY 17

[Day17] NLP會用到的模型(二)-LSTM

一. RNN會造成的問題 前一天看過了RNN的訓練流程,他是非常長一串,若今天我們需訓練一個非常長的文本訓練 RNN 時,會進行非常多次的反向傳播,這在讓我們計...

2021-09-17 ‧ 由 eating 分享
DAY 18

[Day18] NLP會用到的模型(二)-GRU

一. LSTM的問題 LSTM雖然非常強大,但LSTM也是有一個問題,就是計算時間較久導致執行速度較慢,畢竟它需要三個門都計算過~時間就是金錢,所以就產生了GR...

2021-09-18 ‧ 由 eating 分享
DAY 19

[Day19] NLP會用到的模型(三)-RNN應用

一. 任務類型 RNN可以根據任務類型不同分成一對一、一對多、多對一等模型,如下圖(來源): 一對一: 一個input出來一個output,如影像分類 一對多...

2021-09-19 ‧ 由 eating 分享
DAY 20

[Day20] NLP會用到的模型(四)-LSTM實現POS

一. 資料準備 此資料與[Day9]的資料一樣為conllu檔,都是作為POS任務 架構如下,每個詞經過word embedding轉成詞向量後再經過LSTM...

2021-09-20 ‧ 由 eating 分享