這邊指的模型不只是最近很潮的機器學習或深度學習,而是廣泛指透過資料建立用來代表現實的抽象概念(白話來說就是一堆數學)。模型並不是資料本身,但好的模型會能表現資料...
昨天談到 write skew 和 phantoms ,是 2 種特別難重現的 競爭條件 (race condition) 情況,也就代表無法針對這些情況做測試...
即便是相同原料經過不同師傅的手藝也會呈現不同的味道(昨天吃的游壽司) 當資料經過基本篩檢後,也會根據後續使用的需求將資料聚合(資料聚合就是將資料從細的顆粒度聚合...
續 Day 3 Snapshot Isolation 和 Repeatable read 先來看個 read committed 等級的隔離下會發生的靈異現...
前言 如果兩個 transaction 沒有接觸到相同的資料,則它們可以很愉快的 並發 (concurrent) 執行,因為他們彼此不依賴。 並發的問題只會發生...
原始資料可能來自非常多不同的地方,我們可以根據資料產生的方式來加以分類 感應器資料 這邊泛指各種 Sensor 測量得到的資料。Sensor 是普遍用來將資訊資...
單物件 (Single-Object) 和多物件 (Multi-Object) 操作 多物件 (Multi-Object) 操作 ACID 的原子性和隔離性能讓...
此系列是 資料工程師修煉之路 的後半部份,一樣是 Design Data Intensive Applications 的摘要 + 經驗分享,所有的圖片都是...
Request Routing partitioning 的最後一個段落想講的問題:如果我想寫入或讀取 foo 這個 key,我該連哪個節點? 我們稱這個一般化...
Rebalancing Partitions 每經過一段時間,資料庫可能會因為以下幾件事情改變: 為了想提高查詢的吞吐量,所以你加了 CPU。 資料的大小增加...
Partitioning and Secondary Indexes 昨天談了 key-value partition,但在實務上,我們可能會為一些具指標性的欄...
Day 21 ~ Day 26 我們討論了如何將資料分散到不同節點的 Replication,對那些大型資料集或超大的查詢吞吐量來說,只用 Replicati...
延續 (Day 25) Detecting Concurrent Writes Dynamo-style 資料庫允許多個 client 同時寫同一個 key...
延續 Day 24 Sloppy Quorums and Hinted Handoff 資料庫若有適當的 quorums,它能夠允許獨立的節點掛掉而不用完成...
Leaderless Replication 在過去 relational 資料庫主宰過的那個時代中,Leaderless replication (無 lea...
Multi-Leader Replication 在 leader-base (Day 21) 的架構下有個主要的缺點,就是只有一個 leader,所有的寫入必...
這幾天講的主軸是 Replication (數據複製),如果你的資料不會變動,做到 Replication 很簡單,只要把資料複製到別的節點就好了,搞定! 但資...
Day 2 ~ Day19 的內容是這本書的 Part I,討論的都是系統中的資料如何在 單一機器 作業,在接下來的 10 天,也是這本書的 Part II,就...
接續 Day 18 通過非同步訊息傳遞的 Data Flow 最後要來介紹 asynchronous message-passing (非同步訊息傳遞) 系...
Day 13 ~ 17 主要講資料記憶體如何存成檔案或 binary 的格式,也就是 encoding 和 decoding,到了最後一部份,要講講資料有哪幾種...
接續 Day 16 Writer's schema and Reader's schema 這裡 Avro 把 encoding 跟 decoding 動作...
接續 Day 15 Avro 最後一個要來談的 binary encoding 方式是 Apache Avro ,閞始於 Hadoop 底下的子專案,它很明...
接續 Day 14 Thrift and Protocol Buffers 再來要講的 binary encoding 工具就是 Apache Thrift...
接續 Day 13 JSON, XML, CSV 和 Binary Variants (二進制變體) JSON, XML, CSV 都是很廣泛為人知、多人使...
接續 Day 11 Column-Oriented Storage 想像一下如果你的 fact table 有上兆筆資料,資料大小是 PB,dimensio...
Transaction Processing or Analytics? 每一個資料庫都能許多種不同型態的資料,如 blog 貼文、遊戲資料、聯絡人資訊等等,應...
B-Tree 再來要介紹一個非常常用的 index 結構 B-Tree 和它會用到 storage engine (儲存引擎) page-oriented ,...
接續 Day 8 SSTables 延續前一天講的 log-structure,其中我們在意的是相同 key 的資料順序要對,如此才能知道哪筆資料是新的嘛,...
前面幾天我們談了 Data Model,為你的數據系統挑個合適 Data Model 後,接下來就要談談怎麼儲存與檢索了,資料庫 (database) 就做這...
接續 Day 6 Triple-Stores and SPARQL 最後要談的就是 Triple-store Graph Model,跟之前講的 Prope...