iT邦幫忙

etl相關文章
共有 41 則文章
鐵人賽 AI & Data DAY 1

技術 Day1_tableau prep介紹

Hi, 又來到了自虐的第二年參加鐵人賽XD今年計畫介紹兩個目前於我的現職工作中常用的tableau軟體,分別是tableau prep & tablea...

鐵人賽 AI & Data DAY 29

技術 【Day29-管線】ETL資料工程的必備觀念與流程工具Dagster介紹

終於到了倒數第二天了,那前一天我們介紹了用爬蟲作為資料獲取的手段,那今天就來稍微講解一下有了資料之後需要怎樣進行資料流(data pipeline)的管理吧 E...

鐵人賽 AI & Data DAY 19

技術 DAY 19 Big Data 5Vs – Variety(速度) EMR (2)

接續介紹昨天建立的EMR叢集: 建立的叢集可以在左方工具欄的叢集分頁找到步驟的狀態可以到「步驟」分頁查看,可以看到叢集會分兩步驟:先建立好Hadoop後再安裝S...

鐵人賽 AI & Data DAY 17

技術 DAY 17 Big Data 5Vs – Variety(速度) Glue Data Brew

目前為止Glue的三個工具,可以依使用者的開發習慣與技術背景來選用,而AWS是以客戶為導向的公司,對於越來越多跨領域的人才都要希望能夠善加應用手中資料的需求下,...

鐵人賽 AI & Data DAY 16

技術 DAY 16 Big Data 5Vs – Variety(速度) Glue(4) Glue Studio

繼續建立昨天的資料處理任務: 昨天建立的script可以從工具欄中job分頁找到檔案本身會存在S3中,可以點選去查看 程式碼完成後到Job Detail分頁可以...

鐵人賽 AI & Data DAY 15

技術 DAY 15 Big Data 5Vs – Variety(速度) Glue(3) Glue Studio

在資料分析的過程中,花最多時間的事就是在理出資料處理的邏輯,要花很多時間與資料互動,就像第二天提到資料探勘流程中的三個階段:資料準備(Data Preparat...

鐵人賽 AI & Data DAY 14

技術 DAY 14 Big Data 5Vs – Variety(速度) Glue(2) ETL

接續基本元件介紹:Glue ETL功能欄中的可以建立ETL Job、Workflow和Blueprint ETL Jobl:可以在Jobs分頁中建立 有三種Jo...

鐵人賽 AI & Data DAY 13

技術 DAY 13 Big Data 5Vs – Variety(速度) Glue(1) Crawler

輕巧有彈性的Lambda能解決轉檔、壓縮等簡單的處理運算,然而在AWS上如果要建立基本完整的ETL流程更適合的服務是AWS Glue。Glue是個無伺服器的資料...

鐵人賽 AI & Data DAY 12

技術 DAY 12 Big Data 5Vs – Variety(速度) Lambda

在Variety主要說的速度問題是指單次任務運算處理的速度,速度的壓力可能來自於使用者對回應速度的要求。所以說,容量問題像是資料流(data pipeline)...

鐵人賽 自我挑戰組 DAY 11
print("Hello Tableau Public") 系列 第 11

技術 [Tableau Public] day 11:針對原始資料做新增修改

第11天,接續昨天遇到的狀況,我們必須要在原始資料中新增各個行政區的經緯度資料,資料來源是「台灣公開資訊網」。 打開昨天處理好的 excel 檔,原始資料的sh...

鐵人賽 自我挑戰組 DAY 9

技術 [Tableau Public] day 9:分析前先處理一下原始資料吧

第九天,打完疫苗已經22小時,目前只有接種處抬手會酸痛,目前還沒感受到其他副作用。不過頭已經開始有點暈暈的,難道要來了嗎!? 今天我們參考的資料來源是「台北市資...