iT邦幫忙

2018 iT 邦幫忙鐵人賽
DAY 1
0
Data Technology

職場老鳥的資料科學初體驗-R語言專案實作紀錄系列 第 1

(Day1)開工前的MurMur

有鑑於近年熱門的資料科學熱潮持續發燒,與其擔心被邊緣化與環境淘汰,職場老鳥也不得不調整步調與心態,主動出擊,重新下海學習全新知識。也利用這平台給自己點小壓力,能持續堅持30天的發文,並且試圖留下一些努力的軌跡與紀錄。
回到正題,本文將以R語言直接實作一個簡易專案,用以粗淺的理解R語言開發與在資料科學的應用。
相關說明如下。

專案實作的方向: (預計也是文章安排的順序)

公共政策網路參與平台,進行人事時地物相關資料的搜集

  • 公共議題的蒐集(事/物)
  • 參與公民(人)
  • 參與公民的地域(地)
  • 參與時間(時)
    透過網路爬蟲蒐集資料,利用整理清理完資料後,利用R語言繪圖功能,進行資料視覺化,用以分析相關的人事時地物。

1. 資料蒐集:用R爬出所需資料

  • 第一層:爬出公共議題
    https://ithelp.ithome.com.tw/upload/images/20171205/20107033rAXqYvWFj3.png
  • 第二層:爬出csv下載位置,取得參與留言、投票的公民地域、時間等資料
    https://ithelp.ithome.com.tw/upload/images/20171205/20107033CuTcolI8tR.png

2. 文字探勘:分析最常被使用的關鍵字。

3. 資料清理/資料整理

4. 資料視覺化: 根據前述資料,以視覺化效果呈現結果。

  • 長條圖: 表達數量、頻率等
  • 折線圖: 說明趨勢
  • 地圖: 表達地域
  • 熱力圖

開發軟硬體環境:

  • 硬體: Apple MacBook Pro 2016(8G Ram)
  • 開發環境: RStudio 1.1.383

誤按發文的第一天就先這樣囉。


下一篇
(Day2) RStudio安裝與介紹
系列文
職場老鳥的資料科學初體驗-R語言專案實作紀錄30

尚未有邦友留言

立即登入留言