[Day 15] 掌握關鍵技術與概念 - 後篇 - iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

2023 iThome 鐵人賽

DAY 15

AI & Data

用R語言玩轉文字探勘系列第 15 篇

[Day 15] 掌握關鍵技術與概念 - 後篇

15th鐵人賽 r r語言文字探勘 text mining

rlover

2023-09-30 03:43:11

1011 瀏覽

分享至

為什麼要學這些技術

content analysis

內容分析是一個分析文本常見的分析方法，平常可能沒什麼機會接觸，但在傳播學院和社會科學院中，時常會在學術研究中讀到。舉例來說，大家可能聽過一個東西叫做框架分析（framing analysis），也就是查看媒體報導的敘事基準，例如同樣報導中秋節連假國旅風氣下降，一家媒體可能會採用「台灣人不愛台灣不挺國旅」的框架，另一家媒體則可能採取「國旅沒有競爭力」的框架。

這個框架分析，就是內容分析的一個方法。不管是媒體報導、研究論文，還是社群媒體上的推文，都可以用內容分析處理。它既有量化的一面，也有質化的一面。隨著量化社會科學（computational social science）和量化傳播學（computational communication）興起，相關方法越來越不用被人力限制，具體運作從一開始的抽樣、請人幫忙人工貼標，跟著轉向到更多電腦協助（computer assisted）、更自動化（automated）的研究方法。

當然，它還是保有質性的一面，例如更進階的批判論述分析，就不是量化方法能簡單處理的。因為這系列文章都在講文字探勘，所以會聚焦探討量化方法，不會觸及需要用到批判理論的質化方法。

topic model

主題模型可能是近年傳播學，還有資料新聞實務中，相對非常常見的文字探勘方法。它可以非監督式地把大量文件用幾個主題概括，有助於我們快速瞭解文件的主要內容。例如我們想知道美國AI社群的人在推特上都在講些什麼，所以我們利用其他人建好的名單，再接API把推文都下載下來。下一步，當然就是理解他們都在聊些什麼。

不過，要怎麼找？要一篇一篇推文慢慢看嗎？當然有更快的方法，主題模型就是一個解方，它能夠從找出文件集合裡面隱含的主題，對後續的分析和解釋非常有幫助。因為它的分析單位是詞彙，所以不只可以應用在新聞文章或學術論文上，還可以用於分析社群媒體、評論、甚至是醫療記錄等。

part-of-speech tagging / named entity recognition

詞性標註／標記（POS）和命名實體識別（NER）的功效相對難以想像，大家都把重點放在斷詞，不過，這兩個任務在文字探勘中還是有一定重要性。

舉例來說，若是在分析的時候我們只想特別看名詞、特別看動詞，那就一定需要先標記詞性；想特別找人名、地名、機構名等專有名詞，則是命名實體識別派上用場的好時機。

其實，文字探勘簡單來說就是幫我們從許多文本中快速找到重要訊息，可能是從財經新聞中抓風向，或是從社群討論中找重點，無論是命名實體識別還是詞性標註，都是替資訊加值的好功能、好方法，它們有點像是打底，沒有POS、沒有NER不會怎樣，但加上去之後，這些基本功能夠讓我們做得更好，而且也它還可以跨場景，不管是哪個領域的文件都適用。

word embeddings

詞嵌入模型，或者簡稱為詞嵌入，和單純計數相比（上面提到的frequency），特點就是能夠捕捉到詞語之間的關係，而且不只是我跟你一起出現的關係（上面提到的co-occurence），也不只是我跟你都是屬於同一個類型底下的詞彙（上面提到的topic model），它能夠抓到語義。

後面會介紹詳情，詞嵌入能夠將每個詞映射到一個數值向量，使得語義相似的詞在這個向量空間中的距離也相近，例如韓國和日本概念上的位置相近、巴黎和倫敦都是首都所以也相近。這真的是很棒的一個技術，我有點難表達我對發明這個技術的人的敬佩之情！我在學校中就很喜歡這個方法，畢業後也持續熱愛至今，雖然後來有更多進階的語言模型，例如BERT，還有近來讓大眾也震撼的LLM，但我還是鍾愛word embeddings。