iT邦幫忙

data engineer相關文章
共有 125 則文章
鐵人賽 AI & Data DAY 6

技術 [Day 6] 資料產品第三層 - 描述性模型

這邊指的模型不只是最近很潮的機器學習或深度學習,而是廣泛指透過資料建立用來代表現實的抽象概念(白話來說就是一堆數學)。模型並不是資料本身,但好的模型會能表現資料...

鐵人賽 AI & Data DAY 6

技術 Transactions (5-1) - Serializability Isolation - Serial & 2PL

昨天談到 write skew 和 phantoms ,是 2 種特別難重現的 競爭條件 (race condition) 情況,也就代表無法針對這些情況做測試...

鐵人賽 AI & Data DAY 5

技術 [Day 5] 資料產品第二層 - 資料加工術 - 資料聚合

即便是相同原料經過不同師傅的手藝也會呈現不同的味道(昨天吃的游壽司) 當資料經過基本篩檢後,也會根據後續使用的需求將資料聚合(資料聚合就是將資料從細的顆粒度聚合...

鐵人賽 AI & Data DAY 4

技術 Transactions (3-2) - Weak Isolation Levels - Snapshot Isolation

續 Day 3 Snapshot Isolation 和 Repeatable read 先來看個 read committed 等級的隔離下會發生的靈異現...

鐵人賽 AI & Data DAY 3

技術 Transactions (3-1) - Weak Isolation Levels - Read Committed

前言 如果兩個 transaction 沒有接觸到相同的資料,則它們可以很愉快的 並發 (concurrent) 執行,因為他們彼此不依賴。 並發的問題只會發生...

鐵人賽 AI & Data DAY 3

技術 [Day 3] 資料產品第一層 - 原始資料的類型

原始資料可能來自非常多不同的地方,我們可以根據資料產生的方式來加以分類 感應器資料 這邊泛指各種 Sensor 測量得到的資料。Sensor 是普遍用來將資訊資...

鐵人賽 AI & Data DAY 2

技術 Transactions (2) - Data Object Operation

單物件 (Single-Object) 和多物件 (Multi-Object) 操作 多物件 (Multi-Object) 操作 ACID 的原子性和隔離性能讓...

鐵人賽 AI & Data DAY 1

技術 Transactions (1) - ACID

此系列是 資料工程師修煉之路 的後半部份,一樣是 Design Data Intensive Applications 的摘要 + 經驗分享,所有的圖片都是...

鐵人賽 AI & Data DAY 30
資料工程師修煉之路 系列 第 30

技術 [Day 30] Partitioning (4) - Request Routing & 結論

Request Routing partitioning 的最後一個段落想講的問題:如果我想寫入或讀取 foo 這個 key,我該連哪個節點? 我們稱這個一般化...

鐵人賽 AI & Data DAY 29
資料工程師修煉之路 系列 第 29

技術 [Day 29] Partitioning (3) - Rebalancing Partitions

Rebalancing Partitions 每經過一段時間,資料庫可能會因為以下幾件事情改變: 為了想提高查詢的吞吐量,所以你加了 CPU。 資料的大小增加...

鐵人賽 AI & Data DAY 28
資料工程師修煉之路 系列 第 28

技術 [Day 28] Partitioning (2) - Partitioning and Secondary Indexes

Partitioning and Secondary Indexes 昨天談了 key-value partition,但在實務上,我們可能會為一些具指標性的欄...

鐵人賽 AI & Data DAY 27
資料工程師修煉之路 系列 第 27

技術 [Day 27] Partitioning (1) - Partitioning of key-value data

Day 21 ~ Day 26 我們討論了如何將資料分散到不同節點的 Replication,對那些大型資料集或超大的查詢吞吐量來說,只用 Replicati...

鐵人賽 AI & Data DAY 26
資料工程師修煉之路 系列 第 26

技術 [Day 26] Replication (4-3) - Leaderless Replication - Detecting Concurrent Writes & 結論

延續 (Day 25) Detecting Concurrent Writes Dynamo-style 資料庫允許多個 client 同時寫同一個 key...

鐵人賽 AI & Data DAY 25
資料工程師修煉之路 系列 第 25

技術 [Day 25] Replication (4-2) - Leaderless Replication - Sloppy Quorums and Hinted Handoff

延續 Day 24 Sloppy Quorums and Hinted Handoff 資料庫若有適當的 quorums,它能夠允許獨立的節點掛掉而不用完成...

鐵人賽 AI & Data DAY 24
資料工程師修煉之路 系列 第 24

技術 [Day 24] Replication (4-1) - Leaderless Replication

Leaderless Replication 在過去 relational 資料庫主宰過的那個時代中,Leaderless replication (無 lea...

鐵人賽 AI & Data DAY 23
資料工程師修煉之路 系列 第 23

技術 [Day 23] Replication (3) - Multi-Leader Replication

Multi-Leader Replication 在 leader-base (Day 21) 的架構下有個主要的缺點,就是只有一個 leader,所有的寫入必...

鐵人賽 AI & Data DAY 21
資料工程師修煉之路 系列 第 21

技術 [Day 21] Replication (1) - Leaders and Followers

這幾天講的主軸是 Replication (數據複製),如果你的資料不會變動,做到 Replication 很簡單,只要把資料複製到別的節點就好了,搞定! 但資...

鐵人賽 AI & Data DAY 20
資料工程師修煉之路 系列 第 20

技術 [Day 20] Distributed Data

Day 2 ~ Day19 的內容是這本書的 Part I,討論的都是系統中的資料如何在 單一機器 作業,在接下來的 10 天,也是這本書的 Part II,就...

鐵人賽 AI & Data DAY 19
資料工程師修煉之路 系列 第 19

技術 [Day 19] Encoding and Evolution (5-2) - Mode of Dataflow - asynchronous message-passing 和總結

接續 Day 18 通過非同步訊息傳遞的 Data Flow 最後要來介紹 asynchronous message-passing (非同步訊息傳遞) 系...

鐵人賽 AI & Data DAY 18
資料工程師修煉之路 系列 第 18

技術 [Day 18] Encoding and Evolution (5-1) - Mode of Dataflow - DB, REST API, RPC

Day 13 ~ 17 主要講資料記憶體如何存成檔案或 binary 的格式,也就是 encoding 和 decoding,到了最後一部份,要講講資料有哪幾種...

鐵人賽 AI & Data DAY 17
資料工程師修煉之路 系列 第 17

技術 [Day 17] Encoding and Evolution (4-2) - Avro Evolution

接續 Day 16 Writer's schema and Reader's schema 這裡 Avro 把 encoding 跟 decoding 動作...

鐵人賽 AI & Data DAY 16
資料工程師修煉之路 系列 第 16

技術 [Day 16] Encoding and Evolution(4) - Avro

接續 Day 15 Avro 最後一個要來談的 binary encoding 方式是 Apache Avro ,閞始於 Hadoop 底下的子專案,它很明...

鐵人賽 AI & Data DAY 15
資料工程師修煉之路 系列 第 15

技術 [Day 15] Encoding and Evolution(3) - Thrift and Protocol Buffers

接續 Day 14 Thrift and Protocol Buffers 再來要講的 binary encoding 工具就是 Apache Thrift...

鐵人賽 AI & Data DAY 14
資料工程師修煉之路 系列 第 14

技術 [Day 14] Encoding and Evolution(2) - Json, XML, CSV 和 Binary variants (二進制變體)

接續 Day 13 JSON, XML, CSV 和 Binary Variants (二進制變體) JSON, XML, CSV 都是很廣泛為人知、多人使...

鐵人賽 AI & Data DAY 12
資料工程師修煉之路 系列 第 12

技術 [Day 12] Storage and Retrieval(5) - Column-Oriented Storage

接續 Day 11 Column-Oriented Storage 想像一下如果你的 fact table 有上兆筆資料,資料大小是 PB,dimensio...

鐵人賽 AI & Data DAY 11
資料工程師修煉之路 系列 第 11

技術 [Day 11] Storage and Retrieval(4) - OLTP and OLAP

Transaction Processing or Analytics? 每一個資料庫都能許多種不同型態的資料,如 blog 貼文、遊戲資料、聯絡人資訊等等,應...

鐵人賽 AI & Data DAY 10
資料工程師修煉之路 系列 第 10

技術 [Day 10] Storage and Retrieval(3) - B-Tree and comparing LSM-Trees

B-Tree 再來要介紹一個非常常用的 index 結構 B-Tree 和它會用到 storage engine (儲存引擎) page-oriented ,...

鐵人賽 AI & Data DAY 9
資料工程師修煉之路 系列 第 9

技術 [Day 9] Storage and Retrieval(2) - SSTables and LSM-Tree

接續 Day 8 SSTables 延續前一天講的 log-structure,其中我們在意的是相同 key 的資料順序要對,如此才能知道哪筆資料是新的嘛,...

鐵人賽 AI & Data DAY 8
資料工程師修煉之路 系列 第 8

技術 [Day 8] Storage and Retrieval (1) - Log structured and Hash Index

前面幾天我們談了 Data Model,為你的數據系統挑個合適 Data Model 後,接下來就要談談怎麼儲存與檢索了,資料庫 (database) 就做這...

鐵人賽 AI & Data DAY 7
資料工程師修煉之路 系列 第 7

技術 [Day 7] Data Model(4) - Triple-Store Graph Model 和 總結

接續 Day 6 Triple-Stores and SPARQL 最後要談的就是 Triple-store Graph Model,跟之前講的 Prope...