從「這次不會壞吧」到自動化的未來：12 為什麼我們需要資料版本控制？

2024 iThome 鐵人賽

AI/ ML & Data

從「這次不會壞吧」到自動化的未來：從 DevOps 到 MLOps，改造模型佈署之旅系列第 12 篇

16th鐵人賽 mlops devops machine learning 自動化

aif_tw

2024-10-15 23:41:42

1214 瀏覽

分享至

為什麼我們需要資料版本控制？

在開發過程中，隨著時間的推移，團隊常常因為模型效能或其他考量，不斷更新訓練資料，最後累積出大量版本。想像一個情境：在增加一些訓練資料後，模型就訓練不起來了，這時大家一定很想找出到底是改了什麼，才知道怎麼還原回先前的狀態。為了滿足這些需求，版本控制工具應運而生，就如同程式碼會使用 Git 這類的版本控制（以下簡稱為版控）工具，資料和模型現在也都有對應的選擇。先前我們在「MLOps 工具介紹（一）：常見的三種模型實驗管理工具」一文為大家介紹了幾種模型的開源版控工具；現在我們則將重點放在資料。

隨著近年來 MLOps 文化的推廣，市面上已有許多能針對資料與模型的版控工具，它們通常有簡潔且易於使用的圖形化介面，並逐漸朝向高整合度發展。像是著名的實驗管理工具 MLflow 就整合模型版控、部署與實驗管理，DVC 則整合資料版控與實驗重現。

接下來我們將介紹能針對訓練資料進行版控與前處理自動化工具：HPE ML Data Management (MLDM)。除了基本的資料版控以外，也能在原始資料內容有差異時，自動執行事先設定好的前處理程式碼，並對處理後的資料同樣也進行版控。首先從上述兩項重點功能切入，我們以股票的日成交資訊作為原始資料，進行技術指標計算的前處理，試著在 MLDM 做到資料版控和前處理的自動化。

本篇文章由人工智慧科技基金會、HPE與AMD共同合作。

完整內容 >> https://bit.ly/4dQeBaj
Line 官方帳號，看最新技術文章：https://user137910.pse.is/aif2024ironman

參考資料
MLOps 工具介紹（一）：常見的三種模型實驗管理工具 /mlops-model-management-tools/
Pachyderm Docs/Home/Latest/Get Started/First-Time Setup https://mldm.pachyderm.com/latest/get-started/first-time-setup/
Pachyderm Docs/Home/Latest/Learn/Intro to Pipelines https://docs.pachyderm.com/latest/learn/intro-pipelines/
用 MLDE 平台實作 PyTorch 卷積神經網路模型 /hpe-mlde-unboxing1/
Pachyderm Docs/Home/Latest/Integrate/JupyterLab https://docs.pachyderm.com/latest/integrate/jupyterlab-extension/
Pachyderm Docs/Home/Latest/Integrate/Determined https://docs.pachyderm.com/latest/integrate/determined/