這個系列的文章以文字探勘為主題,會介紹文字探勘的原理、在文字探勘過程中要注意的事情,並以R語言為背景,帶大家實作,而且會有很貼近生活的案例。
文字探勘(Text Mining)是一種資料探勘技術,專注於從大量的文字資料中提取有用的資訊和知識。這種技術通常用於分析未經結構化的文字資料,例如新聞文章、網頁內容、社交媒體帖子、文件等。文字探勘的主要目的是將文字資料轉化為有結構的資訊,以便於後續的分析和應用。
文字探勘的主要應用和技術包括:
文字探勘會牽涉好幾個流程,包括清理文本、預處理、提取特徵(不一定)和建立模型,但也可能直接完成特定任務,例如尋找政治人物講過的話,這種就沒有建立模型。
生成式AI出現在大眾面前以後,很多上面的技術都可以改用它搞定了,例如分類、情緒分析,以前要寫一大堆程式碼,現在call GPT API就可以了。不過,還是從頭了解這些技術比較好,畢竟 GPT API 不是免費的~
R語言一直以免費、開源、使用者樂於貢獻著稱,光是在Google搜尋text mining with R,就能夠查到大量相關套件(library),有專門為特定分析服務的套件,也有努力滿足文字探勘整體流程的套件。
這個系列文章,會奠基於兩個R語言當中常用且好用的套件,因為它們的發展相對成熟,已經足夠用框架(framework)稱呼,分別是tidytext
和quanteda
。
這個系列的文章會有幾個特色
以下就是系列文章的寫作架構,等日後完成後會放上每篇連結。
你可以注意到,有些我還沒有很確定是不是能夠成一篇,所以有多留一些quota!
背景介紹:4
資料處理:9
分析方法:10
具體應用案例:4
未來延伸:6
本文就到這裡了,我們一起用R語言玩轉文字探勘吧!