現在越來越多在做數位轉型的企業會想將資料倉儲 (Data Warehouse) 建立在雲端上,因為雲端提供了更好的效能、更多的彈性以及更好的管理方式,而 Google cloud 的 BigQuery 不論是在價格、存取速度和擴充性上,無疑是許多企業作為雲端資料倉儲的最佳選擇。
接下來,我們就從三個面向來認識 BigQuery 吧!
我們先來看一下 Bigquery 的長相,後面的文章會再來好好介紹他:
其實我們與BigQuery的距離的並不是很遙遠,我們平常在使用的Google搜尋引擎和Gmail等服務,背後就和 Bigquery息息相關。 早期 Google 工程師面臨到數據越來越龐大的問題,如何有效的萃取這些數據得到有價值的洞見? 於是就有了 BigQuery的誕生。
我們可以先想像成就是放在雲端的Database,但是更準確的來說,BigQuery 是一種無伺服器的資料倉儲(Serverless data warehouse)。
這裡有兩個觀念要弄清楚:
Serverless architecture, also referred to as FaaS (Functions as a Service) or Backend As A Service, enables the execution of an application via ephemeral and stateless containers; The containers are created right at the moment an event occurs and triggers a need for an action. Thus, it is event driven. Applications, bundled as one or more functions, are uploaded to a platform and then executed, scaled, and billed in response to the exact demand needed at the moment. Serverless does not mean “without a server.” Rather, infrastructure orchestration details are hidden from the user and managed by the serverless platform provider.
Serverless,即無伺服器運算。然而Serverless不是不再需要伺服器,而是公司或開發者不用過多考慮伺服器的問題,運算資源僅作為一種服務而不再以物理硬體的形式出現。
以 Bigquery為例,我們創建 data warehouse並不需要自己架設一個資料庫,在 Google cloud上只需要開啟這個服務就可以開始建立資料集以及資料表了,甚至背後的編碼、加密和異地複製 Google cloud也都幫我們做好了。
還記得第一次聽到Data warehouse這個詞時,心中充滿著困惑:
它指的和 Databases是同一個東西嗎?
如果不是的話那他們又有什麼差異呢?
其實他們的關鍵差異是使用情境。
Databases 存儲為應用程序提供所需的當前數據。
Data warehouse 將來自一個或多個系統的當前和歷史數據存儲在預定義的固定模式中,這使商業分析師和數據科學家能夠輕鬆分析數據。
速度快:查詢或分析TB/PB等級的資料最快可達到“秒”的等級。
費用省:省去維運硬體成本;每月都有Free credit; 依使用情形提供對應折扣。
後續我們也會介紹到費用的部分。
應用多:支援各種BI(Business Intelligence)工具; 協同第三方強化資料整合至分析應用。
比如 Looker, data studio。
彈性大:無需先定義使用空間;支援多種語法;多元存取方式。
有四種可以連接至 BigQuery的方式,後續我們也會介紹以及有一些範例。
What’s BigQuery?
BigQuery 是一種無伺服器的資料倉儲(Serverless data warehouse)。
Why use BigQuery?
作為資料倉儲的使用,並且查詢速度快、費用省、應用多且彈性大。
BigQuery 是什麼?大數據時代一定要認識的最強資料分析工具
What Is Serverless Computing?
Why BigQuery is The Next Big Thing With Example
BigQuery fundamentals