大家好~ 先祝大家中秋節快樂哈哈
昨天我們完成了針對網站的 Google Analytics 的設定~ 現在大家應該可以順利從 Google Analytics Dashboard 看到相關的網站分析內容,像是:使用者在網站上的各種行為資料、從哪個來源進到網站、使用甚麼裝置連線至網站、使用者的國家性別、進站後的使用者瀏覽的頁面以及停留時間等等資料,這些資訊分析都有助於行銷團隊以及資訊團隊來優化網站設計、規劃行銷活動,甚至是擬定品牌策略時最好的參考依據。
但 Google Analytics 的分析資料仍無法涵蓋所有資料範疇,若需要取得更完整的分析結果,我們需要開始整合公司的其他資料(例如:公司 CRM 系統客戶檔、公司內部產品資訊、公司行銷策略相關資訊)進行分析,才能提供更精準的分析結果。
隨著雲端服務的興起,客戶也開始將 ERP 等營運系統放在 AWS 上,我們也會開始思考如何在 AWS 中打造出 Data Lake [1] 以及 Data Warehouse [2],怎麼將多種不同類型的資料彙整到 AWS 中,以便進行更完善的視覺化分析以及機器學習。
特性 | Data Lake 資料湖 | Data Warehouse 資料倉儲
------------- | -------------
目的 | 低成本大數據儲存 | 以資料為基礎,透過資料分析進行商業決策
儲存資料類型 | 可儲存任何類型的資料(儲存結構化和非結構化的資料) | 儲存結構化的資料
使用情境 | 機器學習、預測分析、資料探索和分析 | BI 和視覺化
AWS服務 | AWS S3 | AWS Redshift
所以今天我們就是來思考要如何將 Google Analytics 的資料整合至 AWS 中,讓它與其他的資料進行整合分析啦~
那常見的網路抓取資料的方法大概就是透過『爬蟲』或者『服務的 API 』進行資料擷取。
Google Analytics 也有提供 Google Analytics Reporting API v4 供程式使用 [3],所以我們當然也可以在 AWS 運算資源(例如:Lambda、EC2 )撰寫程式碼去呼叫 Google Analytics Reporting API v4 將 Google Analytics 分析的資訊擷取並儲存至 AWS 儲存資源中(例如:S3) ~
但自行撰寫程式碼呼叫 API,若當 API 升版時則可能會造成程式碼無法正常運作的情況,導致後續資訊人員仍需持續花費時間進行維護/調整。
而 AWS 推出 AppFlow 服務,『此為全受管服務』,不需要花費時間自行撰寫、維護程式碼呼叫 API 來彙整資料源,我們可以直接透過 AppFlow 快速且安全地將 Google Analytics 儲存至 AWS 中,大大降低資訊人員的工作負擔。
明天我們會來實作『如何把 Google Analytics 透過 AWS 擷取服務 - AppFlow 將資料儲放至 AWS 中』~
如果有任何指點與建議,也歡迎留言交流,一起漫步在 Data on AWS 中。
我們明天見:)
參考&相關來源: