一. gensim gensim是一個 NLP 的函式庫,他不只可以訓練word2vec這樣的語言模型,像是doc2vec或是其他的詞向量模型,如 Glove...
前言 繼續來討論語意相似度,今天我們將深入探討如何實現 word embedding 。也就是說,我們要將單詞轉為向量(維度可自行決定),並且確保意義相仿的單詞...
一. 資料準備 此資料與[Day9]的資料一樣為conllu檔,都是作為POS任務 架構如下,每個詞經過word embedding轉成詞向量後再經過LSTM...
前言 原本以為文本相似度這個主題兩天就可以結束了,沒想到花了四天來講。今天將會是介紹自然語言處理基礎的最後一篇,就讓我們做個客製化的 embedding mod...
一. 前言 這篇是word2vec的paper,網址:https://arxiv.org/pdf/1301.3781.pdf 其實文字轉向量這件事在很久之前就有...
前面一直提到要把文字轉乘數值,在前一天也有講到了目前常見的轉換方式。那我們今天直接講一下如何把文字轉成數值。 fasttext 是 Facebook 所提供的...
我們有說過,在資料處理的時候,文字、聲音、影像三個方法要分別處理,即使是多模態(兩種以上方法混合),也是要各自處理完之後再合一。 今天我們就來說說,在處理文字資...