iT邦幫忙

2023 iThome 鐵人賽

DAY 19
0
AI & Data

利用 Databricks 學習 ML/LLM 開發系列 第 19

Day19 - Databricks 上的 Storage

  • 分享至 

  • xImage
  •  

先提供一個快速的列表,說明哪些資料會被存到哪裡:

Operation Location
在 UI 上傳檔案 Object storage
在 DBFS 上傳檔案 Object storage
透過 `Auto Loader`` 上傳資料 Object storage
透過 COPY INTO 上傳資料 Object storage
Create table Object storage
透過 Apache Spark 儲存資料 Object storage
透過 pandas 儲存資料 Block storage
在 notebook 中下載資料 Block storage

Object Storage

Object Storage 就是一個物件,裡面包含了資料、metadata、以及一個全域唯一的資源識別碼。透過 Object Storage 有幾個好處:

  • 高可用性 (High availability)、可耐用性 (durability)、可靠性 (reliability)
  • 相對其他儲存方式具有低成本 (low cost) 優勢
  • 可以無限擴展 (infinitely scalable),物理限制為 Cloud 中某個區域的總儲存量

Block Storage

Block Storage 就是將實際機器上的邏輯區塊儲存空間。而通常操作概念如下:

  • 所有虛擬機器都需要 attach 到一個 block storage volume
  • 這個 block storage volume 上的檔案和程式會一直存在,直到這個 block storage volume 被刪除
  • block storage volume 通常用來當作暫存資料的儲存空間
  • block storage volume 通常會隨著虛擬機器一起被刪除

從以上關於 Object storage 和 Block storage 的說明,發現是不是就等同於 Kubernetes 基本觀念?:-)

Reference:


上一篇
Day18 - Databricks Repos 功能細項討論與限制
下一篇
Day20 - Databricks Machine Learning (Databricks ML) 簡介
系列文
利用 Databricks 學習 ML/LLM 開發30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言