這系列文章我會以一個 Data Scientist 的角度,並以一個 Fintech 公司實際的例子,來分享我們怎麼在雲上或開源專案中建立一個系統來解決以下問題:
- 如何減少從 Experiment 實作到 Serving Pipeline 遇到鬼的
- 如何化解 Data Scientist 間的穀倉效應,並讓 DS 間可以互相合作
- 如何整理雜亂的訓練資料並不會被埋沒在奇怪命名的研究結果汪洋中
- 如何安心的睡覺,不用擔心模型壞掉
當有一個新的模型要來替換目前線上在使用的模型時,通常需要經過一連串的比較,除了透過像是 Accuracy, Pcrecision, Recall 等 Metri...
首先我們先複習一下,當一個訓練階段完成時,會有哪些東西:當我們有了一個已經訓練好的模型,我們需要把他包裝成可以輸出的模型,除了常見的將 Model Dump 成...
在進入後續的 Serving Pipeline 環節之前,我們最後用一天討論一下 Auto ML,Auto ML 的目的是希望將整個訓練的過程,變成一個完全自動...
Serving 其實包括了很多 Load Balance, Micro service architecture design 和 data flow desi...
前面所說的 Sync Features 又可以再細分為 Streaming Features 和 Realtime Features Streaming Fe...
前面提到 Synchronous Features 和 Asynchronous Features 的差異,換句話說也就是 Realtime 和 Batch F...
前面所說的 Asynchronous Features 通常我又稱 Batch Features,這類 Batch Features 的特點是: 適合大量的、...
過去我們談了關於 Synchronous Feature (Realtime Feature) 和 Asynchronous Feature (Batch Fe...
過了 Research 和 Serving 環節,接著進入 Monitoring 環節,我認為如果一個資料科學團隊要開始搭建 MLOPs 系統,最先要開始的絕對...
第二類型的監控 Feature Storage Based Monitoring ,更偏重是一個更長窗口的計算,換句話說前一個 Data Collector...