iT邦幫忙

2023 iThome 鐵人賽

DAY 21
0
AI & Data

嘗試在AI世界闖蕩系列 第 21

Day 21 AI核心應用:自然語言處理(詞向量)

  • 分享至 

  • xImage
  •  

詞向量模式基本概念

詞向量Word Vector = 詞嵌入Word Embedding:以固定維度向量的方式,利用詞與上下文關係Context Relationship的大小,來表示一個詞本身所具有的語意特徵Semantic Features的一種詞表示Word Representation。

  1. 詞向量降維的表示方式:以降維方式來抽取比這些詞更高層次、更具區別性的隱藏特徵。
  2. 詞向量以固定的維數來表示:一般詞向量的維度都在數百、數千之間GPT-3則有上萬個維度。
  3. 相同語意的詞在高維度下的空間距離相近:由於其上下文出現的相似度高,在高維度的語意空間內距離會相近。

詞向量的主要抽取樣式

  1. Word2 Vector:一種利用三層的類神經網路,透過預測詞彙上下文的方式,來訓練與抽取詞向量的一種模式。
    ①連續式詞袋模式Continuous BoW (CBOW):利用上下文來訓練產生出來的與預測一個目標單詞並從隱藏層特徵中獲取各個輸入單詞的參數。
    https://ithelp.ithome.com.tw/upload/images/20231003/20163102CgYqSST5ey.png
    資料來源:https://arxiv.org/pdf/1301.3781.pdf
    ②跳耀模型式Skip-gram Model:與CBOW精神一樣,但方式顛倒,利用一個目標詞透過三層的神經網路,來預測其周遭附近的上下文,並由此求得該目標詞詞向量的一種訓練模式。
    https://ithelp.ithome.com.tw/upload/images/20231003/20163102Pi3u6oxMst.png
    資料來源:https://arxiv.org/pdf/1301.3781.pdf
  2. GloVe詞向量Global Vectors for Word Representation:指的是一種詞與詞的共現矩陣Co-cooccurrence Matrix為核心所計算出來的一種詞向量。
    步驟:
    ①根據語料庫建構一個共規矩陣來表達每個詞與其他文內所有詞在整個全局的語料庫中同時出現的次數。
    ②根據共現關係,利用統計模式來估算每個詞的詞向量,使這個詞向量能準確表達兩個詞之間的共現特徵。
    優點:全局性:能掌握每個詞與整個文本內所有詞的關係。
  3. 詞向量模式比較
    https://ithelp.ithome.com.tw/upload/images/20231003/20163102yDGS5rczz7.png

詞向量優缺點

優點:

  1. 瞭解詞與詞之間的關係:瞭解詞與詞之間語意的相關性、相似性。
  2. 密集的向量表示Dense One Hot Encoding:詞向量是屬於密集的分布,每個維度都存在著有意義的權重,BOW的One Hot Coding是稀疏表示Spare One Hot Encoding其在文本的10萬向量中,只有一兩個參數值是1,其他都是0。
  3. 瞭解詞與上下文之間的關係:充分考慮上下文的順序關係,更能了解每個詞本質上的意涵。
  4. 瞭解本身的語意

缺點:

  1. 無法處理同詞異義的關係:每隔詞最終只得到只有一個詞向量。
  2. 指代消歧問題:對於一個指示代名詞其到底是連接哪個名詞無法精確處理。
  3. 沒有文本背景瞭解:只是詞層次的語意表示。

參考來源:人工智慧:概念應用與管理 林東清


上一篇
Day 20 AI核心應用:自然語言處理(NLP)
下一篇
Day 22 AI核心應用:自然語言處理(句向量、NLP)
系列文
嘗試在AI世界闖蕩31
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言