有鑑於近年熱門的資料科學熱潮持續發燒,與其擔心被邊緣化與環境淘汰,職場老鳥也不得不調整步調與心態,主動出擊,重新下海學習全新知識。也利用這平台給自己點小壓力,能持續堅持30天的發文,並且試圖留下一些努力的軌跡與紀錄。
回到正題,本文將以R語言直接實作一個簡易專案,用以粗淺的理解R語言開發與在資料科學的應用。
相關說明如下。
專案實作的方向: (預計也是文章安排的順序)
以公共政策網路參與平台,進行人事時地物相關資料的搜集
- 公共議題的蒐集(事/物)
- 參與公民(人)
- 參與公民的地域(地)
- 參與時間(時)
透過網路爬蟲蒐集資料,利用整理清理完資料後,利用R語言繪圖功能,進行資料視覺化,用以分析相關的人事時地物。
1. 資料蒐集:用R爬出所需資料
- 第一層:爬出公共議題
- 第二層:爬出csv下載位置,取得參與留言、投票的公民地域、時間等資料
2. 文字探勘:分析最常被使用的關鍵字。
3. 資料清理/資料整理
4. 資料視覺化: 根據前述資料,以視覺化效果呈現結果。
- 長條圖: 表達數量、頻率等
- 折線圖: 說明趨勢
- 地圖: 表達地域
- 熱力圖
開發軟硬體環境:
- 硬體: Apple MacBook Pro 2016(8G Ram)
- 開發環境: RStudio 1.1.383
誤按發文的第一天就先這樣囉。