我們有說過,在資料處理的時候,文字、聲音、影像三個方法要分別處理,即使是多模態(兩種以上方法混合),也是要各自處理完之後再合一。
今天我們就來說說,在處理文字資料的時候有哪些方法吧!
在介紹NL以集情緒分析的時候,有說道「詞嵌入」是里程碑之一對吧,現在在文字分析的特徵體曲中,就是詞嵌入占最大宗,也最廣泛的被使用。
詞嵌入在這邊的作用,是利用神經網絡來學習詞性、詞義之間的相關性,把有相似意義的詞以歐式距離接近的向量形式做表達。
常見利用詞嵌入的方法有NNLM、HLBL、Word2Vec,最後那一著最常用,接下來我們就來簡短介紹一下他的身世。
這個模型的重點就是,利用一個神經網絡來對自然語言中的字詞序列做件模,從而預測出上下文條件中,下一個詞出現的機率。
利用這個方法可以去處理複雜的詞彙模式,但缺點是需要大量的資料集去訓練。
在其中包含了兩個不同風格的模型:CBOW 和 Skip-gram。
CBOW (Continuous Bag-of-Words Model)
這個模型是藉由鄰近的上下文來推測/預測目標,給他有缺漏的一句話,可以把缺的地方補起來--就像在寫填空題一樣,他會做的就是把中間有缺漏的地方補上。
至於上下文的範圍也可以設定。
skip-gram
這個模型的概念跟前者相似,但剛好完全相反過來。skip-gram是利用中心詞去推斷上下文,比如出現「running」,他可以去推測周圍會出現什麼詞。
在近期的研究,除了使用Word2Vec,還有許多會利用GloVe來提取文字特徵。
GloVe和Word2Vec兩者之間的概念相似,但是前者比原先的多江了「統計資訊」,也就是他有多去計算「全局」,在這個詞附近最常出現的字詞,使用統計學的原理,利用共發生率舉證去計算特定曾惠一起出現的頻率,所以在某些方面會比Word2Vec精確。
BERT的原文翻譯過來是「基于Transformer的雙向編碼器表示法」,是一種加入了自注意力機制的深度學習模型。
這個模型與前面那些詞嵌入模型的差別是,他可以「並行」處理整個序列,並利用注意力機制來收集有關單字的上下文。相關的資訊我們在前面介紹Transformer和注意力機制的文章中有提到過。
在收集了這些資訊後,他就可以去處理相關的單字,並且可以去學習如何從句子中的其他單字推倒給出指定單字的意思(我們知道英文中一個詞可能有許多的意思,這個用意就是從上下文去退訂一個詞在句中代表的詞義。)
今天關於文字提取的資料搭家都有聽懂嗎~