Hi, 又來到了自虐的第二年參加鐵人賽XD今年計畫介紹兩個目前於我的現職工作中常用的tableau軟體,分別是tableau prep & tablea...
終於到了倒數第二天了,那前一天我們介紹了用爬蟲作為資料獲取的手段,那今天就來稍微講解一下有了資料之後需要怎樣進行資料流(data pipeline)的管理吧 E...
接續介紹昨天建立的EMR叢集: 建立的叢集可以在左方工具欄的叢集分頁找到步驟的狀態可以到「步驟」分頁查看,可以看到叢集會分兩步驟:先建立好Hadoop後再安裝S...
目前為止Glue的三個工具,可以依使用者的開發習慣與技術背景來選用,而AWS是以客戶為導向的公司,對於越來越多跨領域的人才都要希望能夠善加應用手中資料的需求下,...
繼續建立昨天的資料處理任務: 昨天建立的script可以從工具欄中job分頁找到檔案本身會存在S3中,可以點選去查看 程式碼完成後到Job Detail分頁可以...
在資料分析的過程中,花最多時間的事就是在理出資料處理的邏輯,要花很多時間與資料互動,就像第二天提到資料探勘流程中的三個階段:資料準備(Data Preparat...
接續基本元件介紹:Glue ETL功能欄中的可以建立ETL Job、Workflow和Blueprint ETL Jobl:可以在Jobs分頁中建立 有三種Jo...
輕巧有彈性的Lambda能解決轉檔、壓縮等簡單的處理運算,然而在AWS上如果要建立基本完整的ETL流程更適合的服務是AWS Glue。Glue是個無伺服器的資料...
在Variety主要說的速度問題是指單次任務運算處理的速度,速度的壓力可能來自於使用者對回應速度的要求。所以說,容量問題像是資料流(data pipeline)...
第11天,接續昨天遇到的狀況,我們必須要在原始資料中新增各個行政區的經緯度資料,資料來源是「台灣公開資訊網」。 打開昨天處理好的 excel 檔,原始資料的sh...
第九天,打完疫苗已經22小時,目前只有接種處抬手會酸痛,目前還沒感受到其他副作用。不過頭已經開始有點暈暈的,難道要來了嗎!? 今天我們參考的資料來源是「台北市資...