iT邦幫忙

2024 iThome 鐵人賽

DAY 23
0

我們有說過,在資料處理的時候,文字、聲音、影像三個方法要分別處理,即使是多模態(兩種以上方法混合),也是要各自處理完之後再合一。

今天我們就來說說,在處理文字資料的時候有哪些方法吧!


常見的方法

在介紹NL以集情緒分析的時候,有說道「詞嵌入」是里程碑之一對吧,現在在文字分析的特徵體曲中,就是詞嵌入占最大宗,也最廣泛的被使用。

詞嵌入在這邊的作用,是利用神經網絡來學習詞性、詞義之間的相關性,把有相似意義的詞以歐式距離接近的向量形式做表達。

常見利用詞嵌入的方法有NNLM、HLBL、Word2Vec,最後那一著最常用,接下來我們就來簡短介紹一下他的身世。

神經網路語言模型(NNLM, Neural Network Language Model)

這個模型的重點就是,利用一個神經網絡來對自然語言中的字詞序列做件模,從而預測出上下文條件中,下一個詞出現的機率。

Word2Vec

利用這個方法可以去處理複雜的詞彙模式,但缺點是需要大量的資料集去訓練。

在其中包含了兩個不同風格的模型:CBOW 和 Skip-gram。

CBOW (Continuous Bag-of-Words Model)

這個模型是藉由鄰近的上下文來推測/預測目標,給他有缺漏的一句話,可以把缺的地方補起來--就像在寫填空題一樣,他會做的就是把中間有缺漏的地方補上。

至於上下文的範圍也可以設定。

skip-gram

這個模型的概念跟前者相似,但剛好完全相反過來。skip-gram是利用中心詞去推斷上下文,比如出現「running」,他可以去推測周圍會出現什麼詞。

全局向量的詞嵌入(GloVe, Global Vectors for Word Representation)

在近期的研究,除了使用Word2Vec,還有許多會利用GloVe來提取文字特徵。

GloVe和Word2Vec兩者之間的概念相似,但是前者比原先的多江了「統計資訊」,也就是他有多去計算「全局」,在這個詞附近最常出現的字詞,使用統計學的原理,利用共發生率舉證去計算特定曾惠一起出現的頻率,所以在某些方面會比Word2Vec精確。

大型預訓練模型-BERT(Bidirectional Encoder Representations from Transformers)

BERT的原文翻譯過來是「基于Transformer的雙向編碼器表示法」,是一種加入了自注意力機制的深度學習模型。

這個模型與前面那些詞嵌入模型的差別是,他可以「並行」處理整個序列,並利用注意力機制來收集有關單字的上下文。相關的資訊我們在前面介紹Transformer和注意力機制的文章中有提到過。

在收集了這些資訊後,他就可以去處理相關的單字,並且可以去學習如何從句子中的其他單字推倒給出指定單字的意思(我們知道英文中一個詞可能有許多的意思,這個用意就是從上下文去退訂一個詞在句中代表的詞義。)


今天關於文字提取的資料搭家都有聽懂嗎~


上一篇
Day22 來說說分析是在幹嘛
下一篇
Day24 聲音類型特徵提取
系列文
認識AI與NLP的30日旅行團30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言