從「這次不會壞吧」到自動化的未來：11 為什麼我們需要資料版本控制？

2024 iThome 鐵人賽

DAY 10

AI/ ML & Data

從「這次不會壞吧」到自動化的未來：從 DevOps 到 MLOps，改造模型佈署之旅系列第 11 篇

16th鐵人賽 mlops devops machine learning 自動化

aif_tw

2024-09-26 16:54:09

1023 瀏覽

分享至

在開發過程中，隨著時間的推移，團隊常常因為模型效能或其他考量，不斷更新訓練資料，最後累積出大量版本。想像一個情境：在增加一些訓練資料後，模型就訓練不起來了，這時大家一定很想找出到底是改了什麼，才知道怎麼還原回先前的狀態。為了滿足這些需求，版本控制工具應運而生，就如同程式碼會使用 Git 這類的版本控制（以下簡稱為版控）工具，資料和模型現在也都有對應的選擇。先前我們在「MLOps 工具介紹（一）：常見的三種模型實驗管理工具」一文為大家介紹了幾種模型的開源版控工具；現在我們則將重點放在資料。

隨著近年來 MLOps 文化的推廣，市面上已有許多能針對資料與模型的版控工具，它們通常有簡潔且易於使用的圖形化介面，並逐漸朝向高整合度發展。像是著名的實驗管理工具 MLflow 就整合模型版控、部署與實驗管理，DVC 則整合資料版控與實驗重現。

在接下來的文章我們將介紹能針對訓練資料進行版控與前處理自動化工具：HPE ML Data Management (MLDM)。除了基本的資料版控以外，也能在原始資料內容有差異時，自動執行事先設定好的前處理程式碼，並對處理後的資料同樣也進行版控。首先從上述兩項重點功能切入，我們以股票的日成交資訊作為原始資料，進行技術指標計算的前處理，試著在 MLDM 做到資料版控和前處理的自動化。

使用 HPE MLDM 來管理結構化資料，包含資料上傳、更新。版控功能的使用邏輯與 Git 類似，的確可以快速上手，雖然目前還無法在圖形界面上進行分支管理，僅能透過指令，但幾個常用指令打幾次之後就能記起來，不會有太大問題。另外，MLDM 提供 Jupyter Lab 外掛，使用 Jupyter 進行實驗時就能輕鬆切換不同版本資料。最後，MLDM 還有一項強大功能，就是與自家的 MLDE 組合，達到資料版控、前處理與模型超參數調整的自動化，意味著我們甚至可以將資料的前處理到推論，完全自動化，只要 Repository 裡面的資料有更新，便觸發 Pipeline 自動執行前處理，再輸出模型的預測結果，而每個團隊成員隨時都能透過 MLDM console UI 監控整個系統。在下一篇文章我們將帶大家結合 MLDM 與 MLDE 來實作卷積神經網路模型（Convolutional Neural Network）訓練，且從資料前處理到模型訓練，就只使用這兩項工具來完成。

完整內容 >> https://bit.ly/4fxiN0p
Line 官方帳號，看最新技術文章：https://user137910.pse.is/aif2024ironman