iT邦幫忙

鐵人檔案

2018 iT 邦幫忙鐵人賽
回列表
Data Technology

職場老鳥的資料科學初體驗-R語言專案實作紀錄 系列

僅以一位職場老鳥的角度,以執行專案的方式,自無到有的推導出資料蒐集、處理與分析過程,終至最後的成果展現;
期望能以分享的方式,方便有相同需求的夥伴,解決一些初階的問題。
通篇內容,是透過自行定義專案需求,推導建置,串接自網路上取得的資料,反覆驗證測試的結果。並確認觀念上的應用,並無偏離主題太多。

參賽天數 30 天 | 共 30 篇文章 | 24 人訂閱 訂閱系列文 RSS系列文
DAY 1

(Day1)開工前的MurMur

有鑑於近年熱門的資料科學熱潮持續發燒,與其擔心被邊緣化與環境淘汰,職場老鳥也不得不調整步調與心態,主動出擊,重新下海學習全新知識。也利用這平台給自己點小壓力,能...

2017-12-05 ‧ 由 Kimi0 分享
DAY 2

(Day2) RStudio安裝與介紹

RStudio 是R語言的IDE的開發平台,如同其他程式的整合性平台,除提供了視覺化操作介面之外,相關工具與環境,更是大幅的提升了開發的工作效率.是時候來下載並...

2017-12-06 ‧ 由 Kimi0 分享
DAY 3

(Day3)Hello World!

R注意事項 善用提示功能 無需死記 輸入約到第三字元時,會有符合該相關字元的函數帶出提示,透過上下鍵選擇,Tab鍵確認選用. 透過欲查詢的函數,前方多一個?...

2017-12-07 ‧ 由 Kimi0 分享
DAY 4

(Day4)tidyverse(上)-簡介

根據Hadley Wickhamy 在tidyverse等說明,tidyverse有兩層基本含義:(1)基於google.github.io 定義的代碼Styl...

2017-12-08 ‧ 由 Kimi0 分享
DAY 5

(Day5)tidyverse(中)-整潔易讀Style

1. file 檔案規則 Name 文檔命名規則 建議使用數字、小寫英文、中線、下底線 英文之間用中線、下底線分隔 有順序應以數字為前綴.超過10個檔案,個...

2017-12-09 ‧ 由 Kimi0 分享
DAY 7

(Day7) 爬蟲的第一課爬蟲規劃網站觀察確認規則

在大數據的環境下,數據當然是重要的;為了拿到數據,常得使用爬蟲技術來取得一些具規則性的數據,也才有後續的演算與延伸分析的可能性。根據網路爬蟲-MBA智庫百科 網...

2017-12-11 ‧ 由 Kimi0 分享
DAY 8

(Day8) 爬蟲作業一:準備工作與爬出頁碼

網頁來說,主要有動態網頁與靜態網頁的差別.動態網頁的部分,則可利用RSelenium來進行動態頁面的抓取.(這部分,留給不知道還有多久的將來,再行回過頭補充吧!...

2017-12-12 ‧ 由 Kimi0 分享
DAY 9

(Day9)爬蟲作業二:爬出第一層所需的所有議題

接續前一篇,接下來就是拿著前一篇的總頁數,繼續往下處理每個頁面的議題列表. 以迴圈的方式,逐一爬完所有的頁數. 迴圈開始 #根據頁數執行迴圈 for (i in...

2017-12-13 ‧ 由 Kimi0 分享
DAY 10

(Day10) 爬蟲作業終:爬完所有所需資料!

但如果程式前兩篇實作的程式碼,寫在同一份程式碼,本段無須執行喔! # #library(httr) library(xml2) # web.url="...

2017-12-14 ‧ 由 Kimi0 分享