iT邦幫忙

2021 iThome 鐵人賽

DAY 10
0
自我挑戰組

30天初步了解自然語言處理-自學筆記系列 第 10

[Day10] 文本/詞表示方式(一)-前言

  • 分享至 

  • xImage
  •  

一. 前言

在如今社群網路蓬勃的時代,從網路充斥著許多文字資料,要如何有效的分析文字讓電腦可以知道我們餵進去的文字是什麼,所以才會有許多將文字、文章等轉成數字、向量的方法。

方法其實已經有很多,像是BOW(Bag of word)、one-hot represtation、tf-idf等,今天拿到了一篇文章,要將文章輸入 ML 模型,必須將句子或文章轉換成電腦看得懂的樣子(向量或數字),但怎麼樣表示才能真正代表這個句子或文章的意義呢?過去較長使用的方法為BOW(Bag of word)來表示一個句子或一個文本,但通常這樣的表示會造成一些上下文或語意的流失,近期NLP的任務大致上都是先經過word embedding(詞向量)層,再去做一些任務的預測,詞向量在向量空間中,相同語意的詞會靠很近,不同語意的詞會離很遠,如下圖,此圖來源如[1]所示,可以看到在不同詞向量可以將食物的詞聚再一起,旅遊相關的詞聚再一起:
https://ithelp.ithome.com.tw/upload/images/20210909/20140426hyDONWWnn2.png

若可以訓練出一個具有代表性詞的向量表示方式,更能讓電腦更了解文章或句子的語意,目前的NLP在進行主要任務之前都會先做word embedding這個動作,這更凸顯了其重要性,BERT的Fine tune其實也是相同的意思,先透過原本的BERT對句子文字進行編碼,再Fine tune下游任務,而且效果也是很好~~

相關的word2vec、doc2vec的原理大家可以參考我之前寫的這篇[2]~不想看也沒關係,應該明天或後天就會寫了XD。目前會以下列的主題為主來介紹詞的相關表示方式:

  1. BOW/TFIDF
  2. 共現矩陣
  3. word2vec

今天主要只是介紹為何要使用這個技術~明天會開始探討相關的方法~~

參考資料
[1] On word embeddings - Part 1
[2] 讀paper之心得:word2vec 與 doc2vec


上一篇
[Day9] 詞性標注(四)-利用python實作POS任務
下一篇
[Day11] 文本/詞表示方式(二)-BOW與TFIDF
系列文
30天初步了解自然語言處理-自學筆記30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言