圖片來源: https://pixabay.com/en/books-spine-colors-pastel-1099067/ 和 https://pixabay.com/en/math-blackboard-education-classroom-1547018/
在上一篇([14]如何問對的問題?)了解到了如何定義一個問題,那麼下一個步奏就是收集然後分析Data以解決定義的問題。
收集Data有很多方式,不過一般來說收集到的Data都需要經過一些處理才有辦法使用。
有什麼麼能處理這些Data?這篇將會對於幾種不同處理Data的方式做些介紹,並且為什麼選擇R和如何準備接下來會用到的環境,RStudio。
同步發表於我的部落格:http://blog.alantsai.net/2018/01/data-science-series-15-r-history-rstudio-r-tools-for-studio-ide-setting.html (部落格的格式會漂亮一些,ithome不支援html好不方便)
基本上,要分析Data有兩種方式:
最常見的軟體就是Microsoft Office的Excel。可以把Data喂進去,然後透過裡面一些定義好的方法能夠產生出非常漂亮的圖表或者分析表。
其他常見的還有像是tableau其實都是這種類型。
這些軟體因為有GUI所以好上手, 不過這種類型有個比較大的問題,那就是不好確保重複做會是一樣的動作。
舉例來說,如果定期會收到某些格式的資料,但是這些資料都需要經過處理才有辦法做下一步的分析,請問什麼方式才能夠確保每一次的處理動作都會一樣?在這種軟體類型其實並不容易,或者說如果要做到就需要寫一些比較不好維護的script,例如VBScript。
其實GUI類型的工具都沒有辦法很容易做到自動化或者確保重複操作會一致。
既然GUI在處理重複性上面比較沒辦法做到,那下一個會看的就是程式語言。
在Data Science的領域裡面,有幾個語言比較流行(其實有很多,用什麼都可以):
Python
Scala
R
Python屬於General Purpose Language,所以本來沒有特別傾向做什麼都可以。不過因為有很大的community都用python,導致了很多package做data science非常方便。
Scala夯起來主要是因為Spark是用Scala寫的,因此用Scala在處理Big Data在速度上面會比R和Python來的好,因此用的很多。
那R的特色呢?為什麼選擇R而不是另外兩個呢?其實不管選什麼都沒關係,重點是好不好用。所以如果已經有習慣用什麼,那就用那個。
R Logo
了解一個語言的歷史對於整個語言的定位和特色有幫助,因此先來看看R是怎麼誕生。
R其實不是一個新的語言,它誕生至今已經有24年(從1993),而它是從S演進而來,而S當初是為了給統計學家對Fortran的SCS Library開發提供便利。
因此在R的血液裡面,主要是給統計學家用的Specialized Language。
R怎麼突然紅起來呢?個人認為主要是Big Data的興起,和另外兩個重要的推手:
Revolution R
在2007出現 提供commercial support的R,能夠分散運算和處理大量資料後來被Microsoft買走
RStudio
在2011出現,Open Source的R Integrated Development Environment(IDE)。讓開發R變得非常方便,並且一直持續有開發一些讓R開發更加方便的功能,像是Shiny,讓用寫R的方式建立一個互動式網站
R的歷史
題外話,任何一個火紅的軟體/語言都需要有個重大推手,像git其實2005年就誕生了,但是整個火紅起來是因為2011誕生的Github。
從整個歷史會發現:
R歷史悠久 - 換句話說很多人在用代表很多package(第三方套件) - 而且大部分都是免費。
R是專門給統計學家用的語言 - 換句話說在處理資料、視覺化非常簡單
因此,接下來會用R來入門。
R小檔案
R官網
https://www.r-project.org/
最新版本
3.4.3
檔案大小
Windows約62MB
R Windows 3.4.3 直接下載
台大Mirror
R Mac
台大Mirror
R Linux
台大Mirror
基本上,下載下來之後,一直下一步即可。
最後裝好之後在桌面會有一個R的icon,執行了之後會是一個command line的界面。
執行起來的畫面
RStudio logo
RStudio小檔案
最新版本
1.1.383
檔案大小
Windows約85.8MB
下載頁面
https://www.rstudio.com/products/rstudio/download/#download
Windows直接下載鏈接
RStudio 1.1.383 - Windows Vista/7/8/10
command line其實就夠了,但是如果用過IDE就知道IDE開發的速度上面差異。
因此,這邊也會裝Open Source的R IDE,RStudio。
安裝也很簡單只需要,下一步,下一步就好了,只是要注意,RStudio 並不包含 R,所以兩個要分開安裝。
安裝好了之後,在桌面不會出現,要從Windows的「開始」裡面找。
執行起來會看到畫面分了四個部分:
寫Script的地方 - 寫在這邊之後可以把整個script保存下來
Console - 同等於R的Command LIne。因此Script內容就是執行在這邊
環境參數 - 以我這個例子,可以看到參數x的值
其他畫面 - 例如安裝package,繪圖的結果,檔案總管都在這邊
這邊還要注意一下箭頭的部分,如果需要縮起來(例如不需要console直接寫在script),可以按那個放大的icon,旁邊則是縮小。 所以如果沒有看到畫面注意是不是縮小了
R主要界面
幾個設定
設定的地方在Tools > Global Options
開啟設定畫面
這邊提一下兩個設定:
字體和樣式
預設的script儲存編碼改為utf-8
一般來說要先調整一下字體和樣式以符合需求:
切換到 Appearance
可以改font
可以改字體大小
可以改整個的theme
調整樣式
這個是避免script存檔的時候如果有中文可能會亂碼的問題。
切換到 Code
切換到Saving頁簽
選擇 Change...
Default Setting 改成 Utf-8
按下OK
設定RStudio的預設字集
R Tools for Visual Studio
支援的VS版本
2015和2017
首頁
https://www.visualstudio.com/zh-hant/vs/rtvs/
VS 2017直接下載
Community版本
R本身只是Script,所以任何自己喜歡的編輯器都可以,基本上所有編輯器都會支援R(這邊指的是例如syntax highlight等)
這邊舉得例子是Visual Studio。
Visual Studio有個 R Tools for Visual Studio,可以用Visual Studio來開發R,基本上RStudio的功能都有,然後在熟悉的界面(如果你用VS的話)
基本上安裝和一般VS安裝畫面差不多,裝完了之後會多出:
R Tools的選項
R project template
可以直接在R Tools > Windows > R Interactive直接開啟Console。
在這篇快速介紹了兩種不同分析Data的方式:軟體和程式語言。
再來介紹了一些比較流行的語言和R的介紹。
最後安裝了R、RStudio和R Tool For Visual Studio。
準備好了之後,在下一篇來跑個人認為R的Hello World程式,用quantmod看股票。透過這個快速demo能夠了解R在資料分析和資料視覺有多麼方便。
工商服務
今年的團隊機制不知不覺就集合了10位隊(坑)友 - 大家幫忙多多關注別不小心我們就gg了 XD
** 一群技術愛好者與一名物理治療師的故事 提醒著我們 千萬不要放棄治療 **
沉浸於.Net世界的後端工程師,樂於分享,現任台中Study4成員之一。除了程式以外,就愛看小說。
歡迎有任何問題或者建議都可以告訴我,可以再以下找到我:
部落格:Alan Tsai的學習筆記
我的Linkedin
我的粉絲頁
我的github
我的Slideshare
我的Twitter