iT邦幫忙

鐵人檔案

2021 iThome 鐵人賽
回列表
AI & Data

Data on Air - 以AWS服務實作雲端數據分析 系列

讓"人人都是數據分析師"不再只是農場文章標題,
介紹為什麼與如何選用AWS雲端資源;
實踐利用雲端平台處理大小量資料,
體會在巨人們的肩膀上看得更廣更遠!

鐵人鍊成 | 共 30 篇文章 | 6 人訂閱 訂閱系列文 RSS系列文
DAY 11

DAY 11 Big Data 5Vs – Velocity(多樣性)

另一個常見資料庫分類是從「資料處理*」的應用角度來區分: 交易型Transaction: OLTP:適合較多輸入(寫入與更新)的應用記錄交易型資料(如銀行交易)...

2021-09-23 ‧ 由 Krystal 分享
DAY 12

DAY 12 Big Data 5Vs – Variety(速度) Lambda

在Variety主要說的速度問題是指單次任務運算處理的速度,速度的壓力可能來自於使用者對回應速度的要求。所以說,容量問題像是資料流(data pipeline)...

2021-09-24 ‧ 由 Krystal 分享
DAY 13

DAY 13 Big Data 5Vs – Variety(速度) Glue(1) Crawler

輕巧有彈性的Lambda能解決轉檔、壓縮等簡單的處理運算,然而在AWS上如果要建立基本完整的ETL流程更適合的服務是AWS Glue。Glue是個無伺服器的資料...

2021-09-25 ‧ 由 Krystal 分享
DAY 14

DAY 14 Big Data 5Vs – Variety(速度) Glue(2) ETL

接續基本元件介紹:Glue ETL功能欄中的可以建立ETL Job、Workflow和Blueprint ETL Jobl:可以在Jobs分頁中建立 有三種Jo...

2021-09-26 ‧ 由 Krystal 分享
DAY 15

DAY 15 Big Data 5Vs – Variety(速度) Glue(3) Glue Studio

在資料分析的過程中,花最多時間的事就是在理出資料處理的邏輯,要花很多時間與資料互動,就像第二天提到資料探勘流程中的三個階段:資料準備(Data Preparat...

2021-09-27 ‧ 由 Krystal 分享
DAY 16

DAY 16 Big Data 5Vs – Variety(速度) Glue(4) Glue Studio

繼續建立昨天的資料處理任務: 昨天建立的script可以從工具欄中job分頁找到檔案本身會存在S3中,可以點選去查看 程式碼完成後到Job Detail分頁可以...

2021-09-28 ‧ 由 Krystal 分享
DAY 17

DAY 17 Big Data 5Vs – Variety(速度) Glue Data Brew

目前為止Glue的三個工具,可以依使用者的開發習慣與技術背景來選用,而AWS是以客戶為導向的公司,對於越來越多跨領域的人才都要希望能夠善加應用手中資料的需求下,...

2021-09-29 ‧ 由 Krystal 分享
DAY 18

DAY 18 Big Data 5Vs – Variety(速度) EMR (1)

Amazon Elastic MapReduce(EMR)是可以在EC2 instance 或 Amazon EKS cluster上執行Hadoop運算的託管...

2021-09-30 ‧ 由 Krystal 分享
DAY 19

DAY 19 Big Data 5Vs – Variety(速度) EMR (2)

接續介紹昨天建立的EMR叢集: 建立的叢集可以在左方工具欄的叢集分頁找到步驟的狀態可以到「步驟」分頁查看,可以看到叢集會分兩步驟:先建立好Hadoop後再安裝S...

2021-10-01 ‧ 由 Krystal 分享
DAY 20

DAY 20 Big Data 5Vs – Variety(速度) EMR (2)

EMR的分散式運算與分散式儲存適用是批量處理的應用場景,它也和Glue一樣有提供互動式分析介面:EMR Notebook 與 EMR Studio,供開發與測試...

2021-10-02 ‧ 由 Krystal 分享