iT邦幫忙

2023 iThome 鐵人賽

DAY 11
0
AI & Data

利用 Databricks 學習 ML/LLM 開發系列 第 11

Day11 - Databricks 上的 Data Engineering

  • 分享至 

  • xImage
  •  

到了第十一天,我們來看看 Databricks 上的 Data Engineering。
從官方網站介紹來看,有底下幾個部分

  • Delta Live Tables
  • Structured Streaming
  • Apache Spark
  • Runtimes
  • Clusters
  • Notebooks
  • Workflows
  • Storage
  • Libraries
  • Init scripts
  • Repos
  • DBFS
  • Files
  • Migration
  • Optimization & performance

其中,Delta Live Tables,可以在 Databricks 上建立一個 Delta Lake 的資料表,並且可以透過 SQL 來進行資料的操作。其他像是 DBFS,Files,Storage 等等屬於儲存操作,等有需要再到網站查詢需要的資訊。

接下來,我們來看看 Databricks 上的資料處理流程,以及如何透過 Databricks 來進行資料處理。

資料處理流程

在 Databricks 上,資料處理的流程可以分成兩個部分:

  • Batch processing
    透過 Spark 的 batch processing 來進行資料處理,這部分可以透過 Databricks 上的 notebook 來進行操作。

  • Streaming processing
    透過 Spark 的 streaming processing 來進行資料處理,這部分可以透過 Databricks 上的 notebook 來進行操作。

Reference: https://docs.databricks.com/en/workspace-index.html


上一篇
Day10 - Databricks 到底是什麼?
下一篇
Day12 - Delta Live Tables (DLT) 簡介
系列文
利用 Databricks 學習 ML/LLM 開發30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言