在開發過程中,隨著時間的推移,團隊常常因為模型效能或其他考量,不斷更新訓練資料,最後累積出大量版本。想像一個情境:在增加一些訓練資料後,模型就訓練不起來了,這時大家一定很想找出到底是改了什麼,才知道怎麼還原回先前的狀態。為了滿足這些需求,版本控制工具應運而生,就如同程式碼會使用 Git 這類的版本控制(以下簡稱為版控)工具,資料和模型現在也都有對應的選擇。先前我們在「MLOps 工具介紹(一):常見的三種模型實驗管理工具」一文為大家介紹了幾種模型的開源版控工具;現在我們則將重點放在資料。
隨著近年來 MLOps 文化的推廣,市面上已有許多能針對資料與模型的版控工具,它們通常有簡潔且易於使用的圖形化介面,並逐漸朝向高整合度發展。像是著名的實驗管理工具 MLflow 就整合模型版控、部署與實驗管理,DVC 則整合資料版控與實驗重現。
接下來我們將介紹能針對訓練資料進行版控與前處理自動化工具:HPE ML Data Management (MLDM)。除了基本的資料版控以外,也能在原始資料內容有差異時,自動執行事先設定好的前處理程式碼,並對處理後的資料同樣也進行版控。首先從上述兩項重點功能切入,我們以股票的日成交資訊作為原始資料,進行技術指標計算的前處理,試著在 MLDM 做到資料版控和前處理的自動化。
完整內容 >> https://bit.ly/4dQeBaj
Line 官方帳號,看最新技術文章:https://user137910.pse.is/aif2024ironman
參考資料
MLOps 工具介紹(一):常見的三種模型實驗管理工具 /mlops-model-management-tools/
Pachyderm Docs/Home/Latest/Get Started/First-Time Setup https://mldm.pachyderm.com/latest/get-started/first-time-setup/
Pachyderm Docs/Home/Latest/Learn/Intro to Pipelines https://docs.pachyderm.com/latest/learn/intro-pipelines/
用 MLDE 平台實作 PyTorch 卷積神經網路模型 /hpe-mlde-unboxing1/
Pachyderm Docs/Home/Latest/Integrate/JupyterLab https://docs.pachyderm.com/latest/integrate/jupyterlab-extension/
Pachyderm Docs/Home/Latest/Integrate/Determined https://docs.pachyderm.com/latest/integrate/determined/