iT邦幫忙

word2vec相關文章
共有 7 則文章
鐵人賽 自我挑戰組 DAY 15

技術 [Day15] 文本/詞表示方式(五)-實作word2vec

一. gensim gensim是一個 NLP 的函式庫,他不只可以訓練word2vec這樣的語言模型,像是doc2vec或是其他的詞向量模型,如 Glove...

鐵人賽 AI & Data DAY 14

技術 [常見的自然語言處理技術] 文本相似度(III): Word2vec帶你深入word embeddings

前言 繼續來討論語意相似度,今天我們將深入探討如何實現 word embedding 。也就是說,我們要將單詞轉為向量(維度可自行決定),並且確保意義相仿的單詞...

鐵人賽 自我挑戰組 DAY 20

技術 [Day20] NLP會用到的模型(四)-LSTM實現POS

一. 資料準備 此資料與[Day9]的資料一樣為conllu檔,都是作為POS任務 架構如下,每個詞經過word embedding轉成詞向量後再經過LSTM...

鐵人賽 AI & Data DAY 15

技術 [常見的自然語言處理技術] 文本相似度(IV): 建立自己的Word2vec模型

前言 原本以為文本相似度這個主題兩天就可以結束了,沒想到花了四天來講。今天將會是介紹自然語言處理基礎的最後一篇,就讓我們做個客製化的 embedding mod...

鐵人賽 自我挑戰組 DAY 14

技術 [Day14] 文本/詞表示方式(五)-word2vec

一. 前言 這篇是word2vec的paper,網址:https://arxiv.org/pdf/1301.3781.pdf 其實文字轉向量這件事在很久之前就有...

鐵人賽 AI & Data DAY 17
人工智慧 vs.工人智慧 系列 第 17

技術 Day 17: 文字與數字之間的戀愛

前面一直提到要把文字轉乘數值,在前一天也有講到了目前常見的轉換方式。那我們今天直接講一下如何把文字轉成數值。 fasttext 是 Facebook 所提供的...

鐵人賽 AI/ ML & Data DAY 23

技術 Day23 文字類型特徵提取

我們有說過,在資料處理的時候,文字、聲音、影像三個方法要分別處理,即使是多模態(兩種以上方法混合),也是要各自處理完之後再合一。 今天我們就來說說,在處理文字資...