首先對本篇主題中的一些常見名詞與討論角度做基本的定義;建立共同的出發點以利文章閱讀,並直接破題回答,或許很多人看到標題會有得疑問 : 為什麼要在雲端平台上做數據分析?
先說說問句中的「數據分析」:當事件被記錄下來,成為可以被閱讀與傳播的資訊,再利用工具對它做進一步的了解,就可以產生附加價值,便完成了廣義的數據分析流程。
當資料量不大時,常見的分析工具軟體可以使用Excel、SAS等;當資料量大到一定程度時,變成為了近十年來當紅的大數據應用場景,而這時可以選用的分析工具便見仁見智。
既然做數據分析必須要選用工具,工欲善其事;必先利其器。使用雲端平台上的工具就像是租用別人的電腦,使用者可以按照自己的需求選用最適用的工具,而且很多時候還不用自己保養工具!
舉例一個的使用場景:假設當使用者在建立模型時,只是單單想要加速運算,測試將演算法從的GBDT換成XGBoost後平行處理的效能,這時如果是在雲端平台上,只要輕鬆地在圖形化介面勾選設定選用不同kernel,便可以完成。不用在寫程式時突然要處理環境問題,你想法到哪裡,就能做到哪裡!
最後,在各有特色的大雲端平台供應商中,為什麼選用亞馬遜的AWS呢?
如同Amazon.com上面甚麼都賣,AWS(Amazon Web Service) 也是幾乎甚麼都有,單就個人經驗,還不熟悉雲端時,選用成熟的品牌*,在摸索出自己的使用架構前,可以降低一些不必要的轉換成本(帳號、帳單等)。但反之,也正因為產品很多,所以更要先釐清自己缺甚麼,進了商店才知道要知道自己要買甚麼,也才不會買錯東西。
後續的文章主要也是以這樣的思路出發,先定義問題,再介紹AWS上解決問題適用的工具,讓大家更容易在雲端建立出自己的分析工具。
*AWS 連續11年評比為第一名的領導品牌(https://aws.amazon.com/tw/blogs/aws/aws-named-as-a-leader-for-the-11th-consecutive-year-in-2021-gartner-magic-quadrant-for-cloud-infrastructure-platform-services-cips/ )