僅以一位職場老鳥的角度,以執行專案的方式,自無到有的推導出資料蒐集、處理與分析過程,終至最後的成果展現;
期望能以分享的方式,方便有相同需求的夥伴,解決一些初階的問題。
通篇內容,是透過自行定義專案需求,推導建置,串接自網路上取得的資料,反覆驗證測試的結果。並確認觀念上的應用,並無偏離主題太多。
針對文字這類非結構化資料,文字探勘是很常見的作業,實作前了解一下先。 非結構資料 根據非結構化資料-MBA智庫百科結構化信息是可以數字化的數據信息,可以方便地通...
來研究一下分詞的作業相關設定 mixseg 預設為混合模型 ( MixSegment )其他的說明 Default Method -> 指分詞引擎 (...
接下來,回到本專案的正題,直接把先前爬出的第一層議題欄位,餵進去處理。 View(as.character(dfl$title)) seg<-mixseg...
先準備資料先segA:直接seqment(注意:都是table 注意轉型別)segB_top50:僅取斷詞結果一個字以上的詞的前五十個詞segC_top50:同...
tidyverse套件集裡的readr套件,目的在處理資料來源的匯入,當然如有其他xml等資料要處理,就需要搭配xml2或是XML套件。 #準備工作 #inst...
#叫用套件 install.packages("tidyverse") library(stringr) 以先前專案所讀出來的投票議題文字...
時間格式,往往是數據處理的重要資料。常有格式轉換、套用格式、日期計算等重要的作業需要轉換。lubridate套件提供了快速又便捷的功能可以叫用,可以提升不少的開...
(Day15)基本繪圖功能與資料快速瀏覽(上)開始進入了繪圖的功能,首先要說明的是,常在資料處理與作業過程,常需要快速的瀏覽資料的樣式或是分布,以便能繼續的處理...
回到先前的專案,將以爬出第二層的留言資料的行政區加以整理,檢視各行政區對公共議題的討論程度.處理為 library(xml2) # web.url="...