前面的文章,介紹如何準備文字探勘的原料,接下來的文章,則要討論怎麼探勘、如何分析。前面提過會帶到的幾個重點:
這個章節要後設地討論,為什麼我們要知道這些。
在眾多文字探勘的方法中,頻率分析是最基礎,但也很直觀的一種方法。
頻率分析看起來非常簡單,就是計算一個或多個詞彙在文本中出現的次數。但實際上,它的影響力遠超過你想像。頻率分析不僅能幫助我們快速瞭解文本的主題,還能用於其他更複雜的分析,如情感分析、主題模型等。
它通常是文字探勘項目的第一步。通過詞頻的初步計算,我們可以快速獲得文本數據的一個「大致印象」,這對於後續的分析是非常有幫助的。另外,在大規模的文本資料中,不是每個詞都是重要的。頻率分析可以幫助我們識別那些「關鍵詞」,這些詞通常更能反映文本的主題或者觀點,比較時間變化使用的詞彙變化,分析市場資料或者監控輿情都可以派上用場。
頻率分析還常用於資料的清洗和預處理階段,例如,我們可以通過詞頻來判斷哪些詞是停用詞(stopword),應該被去除。當然,我們在前面也介紹過中文文字探勘停用詞辭典,你不是非得要用詞頻才能找到停用詞。最後,有許多進階的文字探勘技術,如情感分析、主題模型等,都是建立在頻率分析的基礎之上。只有瞭解基礎詞頻,才能進一步進行更複雜的分析。
其實詞頻就是一種文章中的關鍵字。只是因為它太常見、太特殊,因此會拿出來特別講。不過,要找關鍵詞,其實有其他指標,例如協助判斷分類的
information gain、同時考慮文件和詞頻的 tf-idf
等。關鍵字絕對不會只是詞頻而已。
抓出關鍵字可以幫助我們快速瞭解文本的主要內容,從而有效地篩選出感興趣的文本。當然可以用詞頻完成,但你也可以想像,使用詞頻會遇到很多常見的詞,例如你、我、的,都很常見,所以我們就要用其他指標,定義何謂關鍵字,詳細有哪些指標後面就會談到。
「共現分析」(Co-occurrence
Analysis)能夠幫助我們咧姐文本中的關聯性,聽起來有點抽象對吧!
詞語並不是孤立存在的,它們常常與其他詞語形成關聯,或者展現出特定樣態模式。但這些關係並不好辨識,透過共現分析就是想要揭露隱藏的關聯,我們可以探索這些不太明顯的關聯,進而更好地理解文本的深層含義。
共現分析可以與主題模型(如
LDA)結合,提供更為豐富和精確的文本分類。這對於自動標籤生成、SEO等方面有著重要作用。它還可以幫助我們更準確地進行情感分析。例如,「好」這個詞單獨出現可能沒有太多價值,但如果它經常與「非常」、「真的」等詞共同出現,那麼它所代表的情感強度就更為明顯。
文章內容很重要,表達出的情感與態度也很重要。舉例來說,對面向消費者(to
customer,簡稱為 toC 或者
2C)的企業而言,他們在乎消費者對商品的評價,你可能想說,欸傳統行銷研究就有在做問卷調查啦,但因為時代改變,現在廠商更在乎買家怎麼在臉書或IG上談論他們的商品。
這裡的企業還不只是賣零食、賣電腦而已,就連政府也很重視所謂「輿情」,我們可以把政府想成企業,人們就會是客戶,在政治、公共政策或社會議題方面,情感分析提供了一個量化公眾情緒的方法。這對於預測選舉結果、公眾對新政策的接受度等方面都有著至關重要的作用,例如中介法無法闖關成功,某種程度也和大眾輿論表現出的反對有關。
另外,對代理商(agency)或者企業內(in-house)的公共關係(public
relations)團隊來說,當當企業面臨公關危機時,情感分析能讓公司快速掌握民眾如何,能夠藉此及時調整策略,以最有效的方式應對。簡單來說,知道情緒是一個重點。