資料的最終目的就是替代人力。 (https://qz.com/217199/softbanks-humanoid-robot-will-be-great-for...
Partitioning and Secondary Indexes 昨天談了 key-value partition,但在實務上,我們可能會為一些具指標性的欄...
上線之後才是開始。 第一坑 開發和部署環境不一致 如果一開始開發和部署沒有「喬好」環境的話,那上線的過程可是會吃一番苦頭。例如搞不清楚環境有哪些套件,只好正式環...
接續上篇 介紹一下一般開發 ETL 的流程。每隻 ETL 都可以看作是獨立的程式,有獨立的開發流程。 Implment 設計原型 跟一般的軟體開發一樣,先從最關...
這邊指的模型不只是最近很潮的機器學習或深度學習,而是廣泛指透過資料建立用來代表現實的抽象概念(白話來說就是一堆數學)。模型並不是資料本身,但好的模型會能表現資料...
Day 13 ~ 17 主要講資料記憶體如何存成檔案或 binary 的格式,也就是 encoding 和 decoding,到了最後一部份,要講講資料有哪幾種...
Leaderless Replication 在過去 relational 資料庫主宰過的那個時代中,Leaderless replication (無 lea...
Batch Processing 從去年開始寫 本系列文 開始到現在,我們著墨的都是現代系統的樣子,你發送 request 或送一個查詢,然後系統回給你 res...
最後幾天來回顧一下在過去開發資料產品時常見的坑與應對方式,不管是專案還是產品,首先當然要面對的難題就是需求訪談。 第一坑 完全沒有畫面 資料產品在需求訪談階段通...
資料可以是資產、也可以是負債。 當組織積累了太多無用、甚至錯誤的資料時,資料不但不能提供價值,反而需要花更多力氣與時間去儲存、除錯、整理它,變成了負債。 為了讓...
前面說了那麼多理論,最後幾天來寫一下開發實務吧!今天要介紹的是怎麼收集 App 使用者行為資料。 Initiate 追蹤事件是需要成本的,這些成本包括開發、蒐集...
延續 (Day 25) Detecting Concurrent Writes Dynamo-style 資料庫允許多個 client 同時寫同一個 key...
原始資料可能來自非常多不同的地方,我們可以根據資料產生的方式來加以分類 感應器資料 這邊泛指各種 Sensor 測量得到的資料。Sensor 是普遍用來將資訊資...
Multi-Leader Replication 在 leader-base (Day 21) 的架構下有個主要的缺點,就是只有一個 leader,所有的寫入必...
加工資料泛指各種處理資料的行為,這部分要一篇文章寫完真滴難,所以就也只能蜻蜓點水的各介紹一點,讓大家有個整體的概觀。 Initiate 在啟動階段,目標當然是弄...
大部分的人對於資料開始產生興趣,不外乎就是因為想要預測未來。 (https://www.livebitcoinnews.com/bitcoin-price-an...
不可靠的時鐘 (Unreliable Clocks) 時鐘對應用程式來說很重要,它可以回答以下問題: 這個 request 該 timeout 了嗎? 服務的...
昨天提到了怎麼開發預測模型,但模型絕對不是開發完就好,後續還有非常多的事情得做。 Deployment 模型在部署時真的非常麻煩。 Build 出來的模型往往...
前面我們花了好幾篇的篇幅在介紹原始資料、加工資料、資料模型,但這些都還沒有辦法讓資料真正發揮價值,要讓資料發揮價值一定是要將「資料」與「決策」相互結合。我們接下...
特別把描述模型和預測模型分開來寫是因為兩者在開發與驗證階段有不小的差異。(https://ubiq.co/analytics-blog/create-opera...
(https://www.manmonthly.com.au/news/graphene-helps-enhance-wear-resistance-minin...
接續 Day 18 通過非同步訊息傳遞的 Data Flow 最後要來介紹 asynchronous message-passing (非同步訊息傳遞) 系...
Transmitting Event Streams 最後一個章節是 串流處理 (stream processing),Day 23 ~ Day 27 講的 批...
分散式 transaction 和共識 (Distributed Transactions and Consensus) 共識是分散式計算中重要的基礎問題,目標...
延續 Day 24 Sloppy Quorums and Hinted Handoff 資料庫若有適當的 quorums,它能夠允許獨立的節點掛掉而不用完成...
今天來細看 DataOps 的原則,盡量會搭配過去實作的經驗一起做說明。 1. 持續地滿足客戶需求 我們最優先的任務是透過及早並持續地交付有價值的分析洞察來滿足...
如同前面所說,資料模型需要運用到實際環境中才會發揮價值 Initiation 延續之前模型的初始條件,如果想使用資料來輔助決策,最重要的就是要釐清想解決的問題是...
[Day 26] Batch Processing (3-2) - MapReduce Map-Side Joins 續 Day 25 Map-Side J...
Day 2 ~ Day19 的內容是這本書的 Part I,討論的都是系統中的資料如何在 單一機器 作業,在接下來的 10 天,也是這本書的 Part II,就...
儘管都是模型,但預測模型目的在於預測未來,所以開發方式也會和描述型模型有所差異。 Initiation 起始階段要確認的事情跟之前差不多。 商業意圖是否明確:商...