iT邦幫忙

鐵人檔案

2018 iT 邦幫忙鐵人賽
回列表
Data Technology

職場老鳥的資料科學初體驗-R語言專案實作紀錄 系列

僅以一位職場老鳥的角度,以執行專案的方式,自無到有的推導出資料蒐集、處理與分析過程,終至最後的成果展現;
期望能以分享的方式,方便有相同需求的夥伴,解決一些初階的問題。
通篇內容,是透過自行定義專案需求,推導建置,串接自網路上取得的資料,反覆驗證測試的結果。並確認觀念上的應用,並無偏離主題太多。

參賽天數 30 天 | 共 30 篇文章 | 24 人訂閱 訂閱系列文 RSS系列文
DAY 11

(Day11) 用jiebaR做文字探勘吧!

針對文字這類非結構化資料,文字探勘是很常見的作業,實作前了解一下先。 非結構資料 根據非結構化資料-MBA智庫百科結構化信息是可以數字化的數據信息,可以方便地通...

2017-12-15 ‧ 由 Kimi0 分享
DAY 12

(Day12)jiebaR的分詞引擎設定

來研究一下分詞的作業相關設定 mixseg 預設為混合模型 ( MixSegment )其他的說明 Default Method -> 指分詞引擎 (...

2017-12-16 ‧ 由 Kimi0 分享
DAY 13

(Day13)取出有幫助的分詞資料

接下來,回到本專案的正題,直接把先前爬出的第一層議題欄位,餵進去處理。 View(as.character(dfl$title)) seg<-mixseg...

2017-12-17 ‧ 由 Kimi0 分享
DAY 14

(Day14)玩一下文字雲

先準備資料先segA:直接seqment(注意:都是table 注意轉型別)segB_top50:僅取斷詞結果一個字以上的詞的前五十個詞segC_top50:同...

2017-12-18 ‧ 由 Kimi0 分享
DAY 15

(Day15)tidyverse-用來處理資料匯入的readr package

tidyverse套件集裡的readr套件,目的在處理資料來源的匯入,當然如有其他xml等資料要處理,就需要搭配xml2或是XML套件。 #準備工作 #inst...

2017-12-19 ‧ 由 Kimi0 分享
DAY 16

(Day16)tidyverse-用來整理資料用stringr套件

#叫用套件 install.packages("tidyverse") library(stringr) 以先前專案所讀出來的投票議題文字...

2017-12-20 ‧ 由 Kimi0 分享
DAY 17

(Day17)tidyverse-重要且好用的lubridate套件,用以處理時間格式

時間格式,往往是數據處理的重要資料。常有格式轉換、套用格式、日期計算等重要的作業需要轉換。lubridate套件提供了快速又便捷的功能可以叫用,可以提升不少的開...

2017-12-21 ‧ 由 Kimi0 分享
DAY 18

(Day18)基本繪圖功能與資料快速瀏覽

(Day15)基本繪圖功能與資料快速瀏覽(上)開始進入了繪圖的功能,首先要說明的是,常在資料處理與作業過程,常需要快速的瀏覽資料的樣式或是分布,以便能繼續的處理...

2017-12-22 ‧ 由 Kimi0 分享
DAY 20

(Day20) 專案實作-用ggmap實作用地圖的方式呈現行政區分佈

回到先前的專案,將以爬出第二層的留言資料的行政區加以整理,檢視各行政區對公共議題的討論程度.處理為 library(xml2) # web.url="...

2017-12-24 ‧ 由 Kimi0 分享