iT邦幫忙

data engineering相關文章
共有 16 則文章
鐵人賽 AI & Data DAY 4

技術 [Day 4] 資料產品第二層 - 資料加工術 - 資料驗證與清洗

稻米就算採收,也無法直接食用,需要經過一系列的加工才能送到消費者的手裡。 (圖片來源:富里鄉農會) 這個流程跟加工資料的流程並沒有什麼太大的差異,常見的資料...

鐵人賽 AI & Data DAY 17
資料工程師修煉之路 系列 第 17

技術 [Day 17] Encoding and Evolution (4-2) - Avro Evolution

接續 Day 16 Writer's schema and Reader's schema 這裡 Avro 把 encdoing 跟 deocoding 動...

鐵人賽 AI & Data DAY 16
資料工程師修煉之路 系列 第 16

技術 [Day 16] Encoding and Evolution(4) - Avro

接續 Day 15 Avro 最後一個要來談的 binary encoding 方式是 Apache Avro ,閞始於 Hadoop 底下的子專案,它很明...

鐵人賽 AI & Data DAY 15
資料工程師修煉之路 系列 第 15

技術 [Day 15] Encoding and Evolution(3) - Thrift and Protocol Buffers

接續 Day 14 Thrift and Protocol Buffers 再來要講的 binary encoding 工具就是 Apache Thrift...

鐵人賽 AI & Data DAY 14
資料工程師修煉之路 系列 第 14

技術 [Day 14] Encoding and Evolution(2) - Json, XMO, CSV 和 Binary variants (二進制變體)

接續 Day 13 JSON, XML, CSV 和 Binary Variants (二進制變體) JSON, XML, CSV 都是很廣泛為人知、多人使...

鐵人賽 AI & Data DAY 13
資料工程師修煉之路 系列 第 13

技術 [Day 13] Encoding and Evolution(1)

Everything changes and nothing stands still. —Heraclitus of Ephesus, as quoted...

鐵人賽 AI & Data DAY 12
資料工程師修煉之路 系列 第 12

技術 [Day 12] Storage and Retrieval(5) - Column-Oriented Storage

接續 Day 11 Column-Oriented Storage 想像一下如果你的 fact table 有上兆筆資料,資料大小是 PB,dimensio...

鐵人賽 AI & Data DAY 11
資料工程師修煉之路 系列 第 11

技術 [Day 11] Storage and Retrieval(4) - OLTP and OLAP

Transaction Processing or Analytics? 每一個資料庫都能許多種不同型態的資料,如 blog 貼文、遊戲資料、聯絡人資訊等等,應...

鐵人賽 AI & Data DAY 10
資料工程師修煉之路 系列 第 10

技術 [Day 10] Storage and Retrieval(3) - B-Tree and comparing LSM-Trees

B-Tree 再來要介紹一個非常常用的 index 結構 B-Tree 和它會用到 storage engine (儲存引擎) page-oriented ,...

鐵人賽 AI & Data DAY 9
資料工程師修煉之路 系列 第 9

技術 [Day 9] Storage and Retrieval(2) - SSTables and LSM-Tree

接續 Day 8 SSTables 延續前一天講的 log-structure,其中我們在意的是相同 key 的資料順序要對,如此才能知道哪筆資料是新的嘛,...

鐵人賽 AI & Data DAY 8
資料工程師修煉之路 系列 第 8

技術 [Day 8] Storage and Retrieval (1) - Log structured and Hash Index

前面幾天我們談了 Data Model,為你的數據系統挑個合適 Data Model 後,接下來就要談談怎麼儲存與檢索了,資料庫 (database) 就做這...

鐵人賽 AI & Data DAY 7
資料工程師修煉之路 系列 第 7

技術 [Day 7] Data Model(4) - Triple-Store Graph Model 和 總結

接續 Day 6 Triple-Stores and SPARQL 最後要談的就是 Triple-store Graph Model,跟之前講的 Prope...

鐵人賽 AI & Data DAY 6
資料工程師修煉之路 系列 第 6

技術 [Day 6] Data Model(3) - Graph-Like Data Model

接續 Day 5 Graph Data Model 初探 最後要來談談 Graph Data Model,若你軟體的資料關係是大部份一對多,使用 Docum...

鐵人賽 AI & Data DAY 5
資料工程師修煉之路 系列 第 5

技術 [Day 5] Data Model (2) - Relational Versus Doucment Model

接續 Day 4 內容 Relational Versus Document database 這裡有許多可以比較的點,像容錯能力和如何處理並行執行緒,但最...

鐵人賽 AI & Data DAY 4
資料工程師修煉之路 系列 第 4

技術 [Day 4] Data Model (1) - Relational Model and Doucment Model

資料模型 (Data Model) 是所有軟體開發中最重要的環節,每個資料表示層級要如何向更低層級表達資料項目? 看起來有點饒舌,資料表示層級舉例來看: 應...

鐵人賽 AI & Data DAY 3
資料工程師修煉之路 系列 第 3

技術 [Day 3] Reliable, Scalable, and Maintainable Application (2)

接續 Day 2 內容 Scalable (可擴充的) 數據系統現在 Reliable 不代表未來也是 Reliable,系統會進步, 這裡討論的 Scal...