一. BOW BOW的全名為Bag-of-words,中文是'一袋文字',意思就是將詞都丟進一個袋子裡,所以又稱'詞袋'模型,假設有n個句子(或文章),總共有m...
一. 序 這篇主要用python實作TFIDF,來表示文本的方式 二. 載入套件與文本 主要利用jieba斷詞 import jieba import ma...
ㄧ. 前言 前面有說明如何運用TFIDF與BOW來表示一個句子/文本的表示方式,但若以BOW這樣的方式並沒有考慮到句子/文本中上下文的特性,共現矩陣就是利用分佈...
一. 前言 這篇是word2vec的paper,網址:https://arxiv.org/pdf/1301.3781.pdf 其實文字轉向量這件事在很久之前就有...
一. gensim gensim是一個 NLP 的函式庫,他不只可以訓練word2vec這樣的語言模型,像是doc2vec或是其他的詞向量模型,如 Glove...
一. 神經網路 目前許多強大的NLP Model現在都是以神經網路為基礎的模型,所以需要先了解以及認識神經網路的架構,一個神經網路的圖如下,X經過一個Neuro...
一. RNN會造成的問題 前一天看過了RNN的訓練流程,他是非常長一串,若今天我們需訓練一個非常長的文本訓練 RNN 時,會進行非常多次的反向傳播,這在讓我們計...
一. LSTM的問題 LSTM雖然非常強大,但LSTM也是有一個問題,就是計算時間較久導致執行速度較慢,畢竟它需要三個門都計算過~時間就是金錢,所以就產生了GR...
一. 任務類型 RNN可以根據任務類型不同分成一對一、一對多、多對一等模型,如下圖(來源): 一對一: 一個input出來一個output,如影像分類 一對多...
一. 資料準備 此資料與[Day9]的資料一樣為conllu檔,都是作為POS任務 架構如下,每個詞經過word embedding轉成詞向量後再經過LSTM...