iT邦幫忙

2024 iThome 鐵人賽

0
AI/ ML & Data

從「這次不會壞吧」到自動化的未來:從 DevOps 到 MLOps,改造模型佈署之旅系列 第 12

從「這次不會壞吧」到自動化的未來:12 為什麼我們需要資料版本控制?

  • 分享至 

  • xImage
  •  

為什麼我們需要資料版本控制?

在開發過程中,隨著時間的推移,團隊常常因為模型效能或其他考量,不斷更新訓練資料,最後累積出大量版本。想像一個情境:在增加一些訓練資料後,模型就訓練不起來了,這時大家一定很想找出到底是改了什麼,才知道怎麼還原回先前的狀態。為了滿足這些需求,版本控制工具應運而生,就如同程式碼會使用 Git 這類的版本控制(以下簡稱為版控)工具,資料和模型現在也都有對應的選擇。先前我們在「MLOps 工具介紹(一):常見的三種模型實驗管理工具」一文為大家介紹了幾種模型的開源版控工具;現在我們則將重點放在資料。

隨著近年來 MLOps 文化的推廣,市面上已有許多能針對資料與模型的版控工具,它們通常有簡潔且易於使用的圖形化介面,並逐漸朝向高整合度發展。像是著名的實驗管理工具 MLflow 就整合模型版控、部署與實驗管理,DVC 則整合資料版控與實驗重現。

接下來我們將介紹能針對訓練資料進行版控與前處理自動化工具:HPE ML Data Management (MLDM)。除了基本的資料版控以外,也能在原始資料內容有差異時,自動執行事先設定好的前處理程式碼,並對處理後的資料同樣也進行版控。首先從上述兩項重點功能切入,我們以股票的日成交資訊作為原始資料,進行技術指標計算的前處理,試著在 MLDM 做到資料版控和前處理的自動化。

  • 本篇文章由人工智慧科技基金會、HPE與AMD共同合作。

完整內容 >> https://bit.ly/4dQeBaj
Line 官方帳號,看最新技術文章:https://user137910.pse.is/aif2024ironman

參考資料
MLOps 工具介紹(一):常見的三種模型實驗管理工具 /mlops-model-management-tools/
Pachyderm Docs/Home/Latest/Get Started/First-Time Setup https://mldm.pachyderm.com/latest/get-started/first-time-setup/
Pachyderm Docs/Home/Latest/Learn/Intro to Pipelines https://docs.pachyderm.com/latest/learn/intro-pipelines/
用 MLDE 平台實作 PyTorch 卷積神經網路模型 /hpe-mlde-unboxing1/
Pachyderm Docs/Home/Latest/Integrate/JupyterLab https://docs.pachyderm.com/latest/integrate/jupyterlab-extension/
Pachyderm Docs/Home/Latest/Integrate/Determined https://docs.pachyderm.com/latest/integrate/determined/


上一篇
從「這次不會壞吧」到自動化的未來:11 為什麼我們需要資料版本控制?
下一篇
從「這次不會壞吧」到自動化的未來:13 以 HPE MLDM 實作 MLOps 資料版本控制 - 1
系列文
從「這次不會壞吧」到自動化的未來:從 DevOps 到 MLOps,改造模型佈署之旅22
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言