2024 iThome 鐵人賽

DAY 23

AI/ ML & Data

認識AI與NLP的30日旅行團系列第 23 篇

Day23 文字類型特徵提取

16th鐵人賽情緒分析 glove bert word2vec

初墨 Roy

2024-10-07 23:34:38

154 瀏覽

分享至

我們有說過，在資料處理的時候，文字、聲音、影像三個方法要分別處理，即使是多模態（兩種以上方法混合），也是要各自處理完之後再合一。

今天我們就來說說，在處理文字資料的時候有哪些方法吧！

常見的方法

在介紹NL以集情緒分析的時候，有說道「詞嵌入」是里程碑之一對吧，現在在文字分析的特徵體曲中，就是詞嵌入占最大宗，也最廣泛的被使用。

詞嵌入在這邊的作用，是利用神經網絡來學習詞性、詞義之間的相關性，把有相似意義的詞以歐式距離接近的向量形式做表達。

常見利用詞嵌入的方法有NNLM、HLBL、Word2Vec，最後那一著最常用，接下來我們就來簡短介紹一下他的身世。

神經網路語言模型（NNLM, Neural Network Language Model）

這個模型的重點就是，利用一個神經網絡來對自然語言中的字詞序列做件模，從而預測出上下文條件中，下一個詞出現的機率。

Word2Vec

利用這個方法可以去處理複雜的詞彙模式，但缺點是需要大量的資料集去訓練。

在其中包含了兩個不同風格的模型：CBOW 和 Skip-gram。

CBOW (Continuous Bag-of-Words Model)

這個模型是藉由鄰近的上下文來推測/預測目標，給他有缺漏的一句話，可以把缺的地方補起來－－就像在寫填空題一樣，他會做的就是把中間有缺漏的地方補上。

至於上下文的範圍也可以設定。

skip-gram

這個模型的概念跟前者相似，但剛好完全相反過來。skip-gram是利用中心詞去推斷上下文，比如出現「running」，他可以去推測周圍會出現什麼詞。

全局向量的詞嵌入（GloVe, Global Vectors for Word Representation）

在近期的研究，除了使用Word2Vec，還有許多會利用GloVe來提取文字特徵。

GloVe和Word2Vec兩者之間的概念相似，但是前者比原先的多江了「統計資訊」，也就是他有多去計算「全局」，在這個詞附近最常出現的字詞，使用統計學的原理，利用共發生率舉證去計算特定曾惠一起出現的頻率，所以在某些方面會比Word2Vec精確。

大型預訓練模型－BERT（Bidirectional Encoder Representations from Transformers）

BERT的原文翻譯過來是「基于Transformer的雙向編碼器表示法」，是一種加入了自注意力機制的深度學習模型。

這個模型與前面那些詞嵌入模型的差別是，他可以「並行」處理整個序列，並利用注意力機制來收集有關單字的上下文。相關的資訊我們在前面介紹Transformer和注意力機制的文章中有提到過。

在收集了這些資訊後，他就可以去處理相關的單字，並且可以去學習如何從句子中的其他單字推倒給出指定單字的意思（我們知道英文中一個詞可能有許多的意思，這個用意就是從上下文去退訂一個詞在句中代表的詞義。）

今天關於文字提取的資料搭家都有聽懂嗎～

Day22 來說說分析是在幹嘛

Day24 聲音類型特徵提取

系列文

認識AI與NLP的30日旅行團共 30 篇

RSS系列文訂閱系列文

0 人訂閱

完整目錄

尚未有邦友留言

立即登入留言

參賽組數

1064 組

團體組數

40 組

累計文章數

22211 篇

完賽人數

600 人

網路服務就是一連串搜尋的集合體

MWC |

38 分

百萬訂閱平台如何轉型為平台開發模式 - 以支付系統為例

Cloud Summit 臺灣雲端大會 |

30 分

企業搜索解決方案最佳利器

IT EXPLAINED |

38 分

從 Log4shell 的應對，看零信任 (Zero Trust) 的真正意義

CYBERSEC NOW |

27 分

MongoDB的安全性及加密查詢

IT EXPLAINED |

36 分

輕鬆應對 Kubernetes Rolling Update：使用 GCS 作為可靠的 CDN 緩存

Cloud Summit 臺灣雲端大會 |

26 分

Observability with Grafana

DevOpsDays |

23 分

用六頂思考帽挑戰敏捷框架，思考 AI 世代的敏捷未來

Hello World Dev Conference |

43 分

使用真勇者的版控流程－－主幹開發，大幅提高程式穩定性

DevOpsDays |

40 分

運用 POWERS 系統性思考框架助力組織創新，提升導入成效

Hello World Dev Conference |

49 分

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# windows server linux css react vue.js

認識AI與NLP的30日旅行團系列 第 23 篇