iT邦幫忙

2021 iThome 鐵人賽

DAY 7
2
AI & Data

Data on AWS - 實作建立 Data Analytics Pipeline系列 第 7

【Day 07】 在 AWS 中打造出 Data Lake 以及 Data Warehouse

  • 分享至 

  • xImage
  •  

大家好~ 先祝大家中秋節快樂哈哈/images/emoticon/emoticon42.gif
昨天我們完成了針對網站的 Google Analytics 的設定~ 現在大家應該可以順利從 Google Analytics Dashboard 看到相關的網站分析內容,像是:使用者在網站上的各種行為資料、從哪個來源進到網站、使用甚麼裝置連線至網站、使用者的國家性別、進站後的使用者瀏覽的頁面以及停留時間等等資料,這些資訊分析都有助於行銷團隊以及資訊團隊來優化網站設計、規劃行銷活動,甚至是擬定品牌策略時最好的參考依據。
https://ithelp.ithome.com.tw/upload/images/20210921/2013107306OMBT4oH2.png

但 Google Analytics 的分析資料仍無法涵蓋所有資料範疇,若需要取得更完整的分析結果,我們需要開始整合公司的其他資料(例如:公司 CRM 系統客戶檔、公司內部產品資訊、公司行銷策略相關資訊)進行分析,才能提供更精準的分析結果。


隨著雲端服務的興起,客戶也開始將 ERP 等營運系統放在 AWS 上,我們也會開始思考如何在 AWS 中打造出 Data Lake [1] 以及 Data Warehouse [2],怎麼將多種不同類型的資料彙整到 AWS 中,以便進行更完善的視覺化分析以及機器學習。

Data Lake vs Data Warehouse

特性 | Data Lake 資料湖 | Data Warehouse 資料倉儲
------------- | -------------
目的 | 低成本大數據儲存 | 以資料為基礎,透過資料分析進行商業決策
儲存資料類型 | 可儲存任何類型的資料(儲存結構化和非結構化的資料) | 儲存結構化的資料
使用情境 | 機器學習、預測分析、資料探索和分析 | BI 和視覺化
AWS服務 | AWS S3 | AWS Redshift


所以今天我們就是來思考要如何將 Google Analytics 的資料整合至 AWS 中,讓它與其他的資料進行整合分析啦~
那常見的網路抓取資料的方法大概就是透過『爬蟲』或者『服務的 API 』進行資料擷取。

  • 如果是透過『爬蟲』,他可以試圖抓取無 API 的網路服務資料,但需要一定的知識以及技能且可能會有違法的情況。
  • 而服務的 API,則是由服務供應商開放提供,可以讓使用者透過程式呼叫 API 的方式擷取資料,但取得的資料內容則會依據API的規定而有所限制。

Google Analytics 也有提供 Google Analytics Reporting API v4 供程式使用 [3],所以我們當然也可以在 AWS 運算資源(例如:Lambda、EC2 )撰寫程式碼去呼叫 Google Analytics Reporting API v4 將 Google Analytics 分析的資訊擷取並儲存至 AWS 儲存資源中(例如:S3) ~
https://ithelp.ithome.com.tw/upload/images/20210921/201310731f8oA1cnlC.png
但自行撰寫程式碼呼叫 API,若當 API 升版時則可能會造成程式碼無法正常運作的情況,導致後續資訊人員仍需持續花費時間進行維護/調整。
而 AWS 推出 AppFlow 服務,『此為全受管服務』,不需要花費時間自行撰寫、維護程式碼呼叫 API 來彙整資料源,我們可以直接透過 AppFlow 快速且安全地將 Google Analytics 儲存至 AWS 中,大大降低資訊人員的工作負擔。


明天我們會來實作『如何把 Google Analytics 透過 AWS 擷取服務 - AppFlow 將資料儲放至 AWS 中』~
如果有任何指點與建議,也歡迎留言交流,一起漫步在 Data on AWS 中。

我們明天見:)

參考&相關來源:

  1. What is a data lake? 什麼是資料湖?
    https://aws.amazon.com/tw/big-data/datalakes-and-analytics/what-is-a-data-lake/
  2. What is a data warehouse? 什麼是資料倉儲?
    https://aws.amazon.com/tw/data-warehouse/
  3. Google Analytics Reporting API v4
    https://developers.google.com/analytics/devguides/reporting/core/v4

上一篇
【Day 06】 實作 - 設定 Google Analytics 工具查看 WordPress 網站
下一篇
【Day 08】 實作 - 透過 AWS 服務 - AppFlow 把 Google Analytics 資料存放至 AWS 中 ( 1 )
系列文
Data on AWS - 實作建立 Data Analytics Pipeline30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

1 則留言

0
charleschiang
iT邦新手 5 級 ‧ 2021-09-21 23:24:27

中秋節快樂~~

Dorothy iT邦新手 4 級 ‧ 2021-09-22 09:26:09 檢舉

XD 笑死

我要留言

立即登入留言