讓"人人都是數據分析師"不再只是農場文章標題,
介紹為什麼與如何選用AWS雲端資源;
實踐利用雲端平台處理大小量資料,
體會在巨人們的肩膀上看得更廣更遠!
另一個常見資料庫分類是從「資料處理*」的應用角度來區分: 交易型Transaction: OLTP:適合較多輸入(寫入與更新)的應用記錄交易型資料(如銀行交易)...
在Variety主要說的速度問題是指單次任務運算處理的速度,速度的壓力可能來自於使用者對回應速度的要求。所以說,容量問題像是資料流(data pipeline)...
輕巧有彈性的Lambda能解決轉檔、壓縮等簡單的處理運算,然而在AWS上如果要建立基本完整的ETL流程更適合的服務是AWS Glue。Glue是個無伺服器的資料...
接續基本元件介紹:Glue ETL功能欄中的可以建立ETL Job、Workflow和Blueprint ETL Jobl:可以在Jobs分頁中建立 有三種Jo...
在資料分析的過程中,花最多時間的事就是在理出資料處理的邏輯,要花很多時間與資料互動,就像第二天提到資料探勘流程中的三個階段:資料準備(Data Preparat...
繼續建立昨天的資料處理任務: 昨天建立的script可以從工具欄中job分頁找到檔案本身會存在S3中,可以點選去查看 程式碼完成後到Job Detail分頁可以...
目前為止Glue的三個工具,可以依使用者的開發習慣與技術背景來選用,而AWS是以客戶為導向的公司,對於越來越多跨領域的人才都要希望能夠善加應用手中資料的需求下,...
Amazon Elastic MapReduce(EMR)是可以在EC2 instance 或 Amazon EKS cluster上執行Hadoop運算的託管...
接續介紹昨天建立的EMR叢集: 建立的叢集可以在左方工具欄的叢集分頁找到步驟的狀態可以到「步驟」分頁查看,可以看到叢集會分兩步驟:先建立好Hadoop後再安裝S...
EMR的分散式運算與分散式儲存適用是批量處理的應用場景,它也和Glue一樣有提供互動式分析介面:EMR Notebook 與 EMR Studio,供開發與測試...