這系列文章我會以一個 Data Scientist 的角度,並以一個 Fintech 公司實際的例子,來分享我們怎麼在雲上或開源專案中建立一個系統來解決以下問題:
- 如何減少從 Experiment 實作到 Serving Pipeline 遇到鬼的
- 如何化解 Data Scientist 間的穀倉效應,並讓 DS 間可以互相合作
- 如何整理雜亂的訓練資料並不會被埋沒在奇怪命名的研究結果汪洋中
- 如何安心的睡覺,不用擔心模型壞掉
這系列文將會分享自己在過去幾年 Applied Data Scientist 的工作經驗,隨著團隊不斷擴大,如何去建構一個和其他 Data Scientist...
用戶把錢存入 FinTech 平台後,因為各種原因導致帳號被盜用,我們稱呼這樣的現象為 帳戶接管攻擊 (Account Takeover Attack, ATO...
在繼續討論如何建造一個機器學習解決方案之前,我們要先來討論這個模型要放在什麼樣的系統之中,接下來三天的時間,將從上而下的了解一個 Fintech 系統會有哪些元...
昨天介紹了基礎的分散式系統元件,今天會進一步講如何加入機係學習的部分,關於機器學習,這一個由 AWS 針對 Fraud Detection 的 Example...
今天休息一下,紀錄一下為什麼需要合作? 一個資料團隊的組成 先來看看 OpenAI GPT 4 的貢獻名單 ,從這個組織架上上可以發現團隊大致分成七個部分:...
起手式 研究的目的就是要產出一個模型?這其實是一個有點危險的起手式,回故我們一開始提到的 AI Canvas 和 ML Canvas 兩個架構,我認為這兩個架...
今天的內容比較短一些,主要介紹一下什麼是 Data Version Control整個 Data Version Control 可以用下面這張圖來描述 為什...
實驗管理 實驗管理顧名思義就是 追蹤、筆記和分享每一次實驗的進度,可以參考下圖 一個實驗通常包含以下幾項資訊 Input Data 是什麼? Data 做了...
從一個資料科學家或是分析師的角度來看 ETL,就是寫一個接著一個的 SQL,當然有些 Transform 可以使用程式更快速的達到目的,然而怎麼管理這些 SQL...
Model Performance Evaluation 就是在訓練完一個模型時來評估模型的好壞,一樣舉 Binary Classification Model...