今天的內容比較短一些,主要介紹一下什麼是 Data Version Control
整個 Data Version Control 可以用下面這張圖來描述
如果要透過 Github + LFS 來管理整個模型用到的版本,會需要搭配很多的 Convention 才能做到比較好的管理,為了讓這些 Convention 有更強的約束力,會需要去實作一些 Github Hook 工具來達到好的管理,我認為 Data Version Control 的目的就是這樣,他有以下特色:
commit
, push
, pull
等)來管理數據和模型透過這些特色可以做到
Data Version Control 是將軟體工程的最佳實踐引入資料科學開發的第一步,即使是在不合作的情況下也能提供很多額外的附加價值,其中最常用的工具就是 DVC 另外有另外一套工具叫 ArtiVC 號稱比 DCV 更快
關於 DVC 如何使用可以參考這篇文章 他做了很好的範例