我們常常聽到,在一個ML專案當中,會需要做各種的資料監控。這些資料監控包含哪些呢?
開發流程
在開發流程當中,不管是資料、程式碼、模型,都會需要透過版本控制監控,了解到當下的更新是什麼。除此之外當然也包含基礎的設施管理,也必須在監控的範圍之下。
ML專案是一個相對其他軟體專案,需要更頻繁維護的專案,原因來自於當ML模型一上線之後,模型的準度與使用者的行為之間的關係是動態的,我們無法預期進來網站的使用者背景會來自什麼樣的類型,也無法預期使用者會怎麼樣的使用這個網站。也因此我們會需要做模型以及資料的監控。
在模型上線之後的模型與資料監控,則可以成為下一次ML系統開發的時候資料參考。以便於往下一輪迭代,或甚至是在模型上線之後,發現到效能不如預期,必須回溯到前一個版本等等。也因此跟模型互動之間的資料,才會被重複提起。
團隊角色
關於團隊中的角色授權,以及哪些角色在系統當中做了什麼事情,這些監控在一般的軟體開發以及部署就已經會被實作了。在金融產業當中,則是因為金融行業本身需要的安全性以及合規性,需要繳交各種報告,也因此會需要這些資料。