資料專案的類型可以依照資料產品特性分為原始資料、加工資料、模型、輔助決策以及自動決策等五種。這五種產品在開發與設計上有各自需要注意的地方,彼此在應用上也互相關聯依賴,這種特性造成了資料產品或專案在開發以及管理上的困難。
這系列文章會將過去處理過資量產品的經驗,轉變成更有系統的管理以及開發方式,讓資料科學家、工程師、專案經理以及需求方都能夠站在相似的基礎上來討論事情,讓資料產品開發專案過程更為順利。
不同類型的資料產品在其各自專案週期有需要注意的地方,以下我們將說明在處理原始資料時,各階段應該做的事情 Initiate 在初始階段,最重要的就是要了解搜集資料...
加工資料泛指各種處理資料的行為,這部分要一篇文章寫完真滴難,所以就也只能蜻蜓點水的各介紹一點,讓大家有個整體的概觀。 Initiate 在啟動階段,目標當然是弄...
接續上篇 介紹一下一般開發 ETL 的流程。每隻 ETL 都可以看作是獨立的程式,有獨立的開發流程。 Implment 設計原型 跟一般的軟體開發一樣,先從最關...
特別把描述模型和預測模型分開來寫是因為兩者在開發與驗證階段有不小的差異。(https://ubiq.co/analytics-blog/create-opera...
儘管都是模型,但預測模型目的在於預測未來,所以開發方式也會和描述型模型有所差異。 Initiation 起始階段要確認的事情跟之前差不多。 商業意圖是否明確:商...
昨天提到了怎麼開發預測模型,但模型絕對不是開發完就好,後續還有非常多的事情得做。 Deployment 模型在部署時真的非常麻煩。 Build 出來的模型往往...
如同前面所說,資料模型需要運用到實際環境中才會發揮價值 Initiation 延續之前模型的初始條件,如果想使用資料來輔助決策,最重要的就是要釐清想解決的問題是...
如同前面所說,資料模型需要運用到實際環境中才會發揮價值 Initiation 延續之前輔助決策的初始條件,如果想使用資料來做自動決策,最重要的一樣是要釐清想解決...
前面花了不少篇幅在討論資料產品的開發,接下來將花一些篇幅討論資料產品的治理方式。 在做資料產品治理時,有一個很重要的觀念「將資料當作資產」。如果前面介紹過的,資...
資料可以是資產、也可以是負債。 當組織積累了太多無用、甚至錯誤的資料時,資料不但不能提供價值,反而需要花更多力氣與時間去儲存、除錯、整理它,變成了負債。 為了讓...