iT邦幫忙

2023 iThome 鐵人賽

DAY 15
0
AI & Data

用R語言玩轉文字探勘系列 第 15

[Day 15] 掌握關鍵技術與概念 - 後篇

  • 分享至 

  • xImage
  •  

為什麼要學這些技術

content analysis

內容分析是一個分析文本常見的分析方法,平常可能沒什麼機會接觸,但在傳播學院和社會科學院中,時常會在學術研究中讀到。舉例來說,大家可能聽過一個東西叫做框架分析(framing analysis),也就是查看媒體報導的敘事基準,例如同樣報導中秋節連假國旅風氣下降,一家媒體可能會採用「台灣人不愛台灣不挺國旅」的框架,另一家媒體則可能採取「國旅沒有競爭力」的框架。

這個框架分析,就是內容分析的一個方法。不管是媒體報導、研究論文,還是社群媒體上的推文,都可以用內容分析處理。它既有量化的一面,也有質化的一面。隨著量化社會科學(computational social science)和量化傳播學(computational communication)興起,相關方法越來越不用被人力限制,具體運作從一開始的抽樣、請人幫忙人工貼標,跟著轉向到更多電腦協助(computer assisted)、更自動化(automated)的研究方法。

當然,它還是保有質性的一面,例如更進階的批判論述分析,就不是量化方法能簡單處理的。因為這系列文章都在講文字探勘,所以會聚焦探討量化方法,不會觸及需要用到批判理論的質化方法。

topic model

主題模型可能是近年傳播學,還有資料新聞實務中,相對非常常見的文字探勘方法。它可以非監督式地把大量文件用幾個主題概括,有助於我們快速瞭解文件的主要內容。例如我們想知道美國AI社群的人在推特上都在講些什麼,所以我們利用其他人建好的名單,再接API把推文都下載下來。下一步,當然就是理解他們都在聊些什麼。

不過,要怎麼找?要一篇一篇推文慢慢看嗎?當然有更快的方法,主題模型就是一個解方,它能夠從找出文件集合裡面隱含的主題,對後續的分析和解釋非常有幫助。因為它的分析單位是詞彙,所以不只可以應用在新聞文章或學術論文上,還可以用於分析社群媒體、評論、甚至是醫療記錄等。

part-of-speech tagging / named entity recognition

詞性標註/標記(POS)和命名實體識別(NER)的功效相對難以想像,大家都把重點放在斷詞,不過,這兩個任務在文字探勘中還是有一定重要性。

舉例來說,若是在分析的時候我們只想特別看名詞、特別看動詞,那就一定需要先標記詞性;想特別找人名、地名、機構名等專有名詞,則是命名實體識別派上用場的好時機。

其實,文字探勘簡單來說就是幫我們從許多文本中快速找到重要訊息,可能是從財經新聞中抓風向,或是從社群討論中找重點,無論是命名實體識別還是詞性標註,都是替資訊加值的好功能、好方法,它們有點像是打底,沒有POS、沒有NER不會怎樣,但加上去之後,這些基本功能夠讓我們做得更好,而且也它還可以跨場景,不管是哪個領域的文件都適用。

word embeddings

詞嵌入模型,或者簡稱為詞嵌入,和單純計數相比(上面提到的frequency),特點就是能夠捕捉到詞語之間的關係,而且不只是我跟你一起出現的關係(上面提到的co-occurence),也不只是我跟你都是屬於同一個類型底下的詞彙(上面提到的topic model),它能夠抓到語義。

後面會介紹詳情,詞嵌入能夠將每個詞映射到一個數值向量,使得語義相似的詞在這個向量空間中的距離也相近,例如韓國和日本概念上的位置相近、巴黎和倫敦都是首都所以也相近。這真的是很棒的一個技術,我有點難表達我對發明這個技術的人的敬佩之情!我在學校中就很喜歡這個方法,畢業後也持續熱愛至今,雖然後來有更多進階的語言模型,例如BERT,還有近來讓大眾也震撼的LLM,但我還是鍾愛word embeddings。

未來與以後

不只有上面談的技術,回頭看文章架構,其實還缺了很多,例如文本分類、文本生成(媒體很需要)、關係抽取,還有許多東西沒特別談到,就看後面的篇幅和心力,能夠補上多少!


上一篇
[Day 14] 掌握關鍵技術與概念 - 前篇
下一篇
[Day 16] 利用R語言計算詞頻
系列文
用R語言玩轉文字探勘30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言