到了第十一天,我們來看看 Databricks 上的 Data Engineering。
從官方網站介紹來看,有底下幾個部分
其中,Delta Live Tables,可以在 Databricks 上建立一個 Delta Lake 的資料表,並且可以透過 SQL 來進行資料的操作。其他像是 DBFS,Files,Storage 等等屬於儲存操作,等有需要再到網站查詢需要的資訊。
接下來,我們來看看 Databricks 上的資料處理流程,以及如何透過 Databricks 來進行資料處理。
在 Databricks 上,資料處理的流程可以分成兩個部分:
Batch processing
透過 Spark 的 batch processing 來進行資料處理,這部分可以透過 Databricks 上的 notebook 來進行操作。
Streaming processing
透過 Spark 的 streaming processing 來進行資料處理,這部分可以透過 Databricks 上的 notebook 來進行操作。
Reference: https://docs.databricks.com/en/workspace-index.html