iT邦幫忙

data engineer相關文章
共有 145 則文章
鐵人賽 AI & Data DAY 4
資料工程師修煉之路 系列 第 4

技術 [Day 4] Data Model (1) - Relational Model and Document Model

資料模型 (Data Model) 是所有軟體開發中最重要的環節,每個資料表示層級要如何向更低層級表達資料項目? 看起來有點饒舌,資料表示層級舉例來看: 應...

鐵人賽 AI & Data DAY 1

技術 Transactions (1) - ACID

此系列是 資料工程師修煉之路 的後半部份,一樣是 Design Data Intensive Applications 的摘要 + 經驗分享,所有的圖片都是...

鐵人賽 AI & Data DAY 27

技術 [Day 27] 資料產品開發實務 - 加工資料 - ETL 開發流程

介紹一下一般開發 ETL 的流程。每隻 ETL 都可以看作是獨立的程式,有獨立的開發流程。但是不同的 ETL 程式又可以使用類似的系統或架構來幫助開發和管理。...

鐵人賽 AI & Data DAY 9
資料工程師修煉之路 系列 第 9

技術 [Day 9] Storage and Retrieval(2) - SSTables and LSM-Tree

接續 Day 8 SSTables 延續前一天講的 log-structure,其中我們在意的是相同 key 的資料順序要對,如此才能知道哪筆資料是新的嘛,...

鐵人賽 AI & Data DAY 6
資料工程師修煉之路 系列 第 6

技術 [Day 6] Data Model(3) - Graph-Like Data Model

接續 Day 5 Graph Data Model 初探 最後要來談談 Graph Data Model,若你軟體的資料關係是大部份一對多,使用 Docum...

鐵人賽 AI & Data DAY 6

技術 Transactions (5-1) - Serializability Isolation - Serial & 2PL

昨天談到 write skew 和 phantoms ,是 2 種特別難重現的 競爭條件 (race condition) 情況,也就代表無法針對這些情況做測試...

鐵人賽 AI & Data DAY 16
資料工程師修煉之路 系列 第 16

技術 [Day 16] Encoding and Evolution(4) - Avro

接續 Day 15 Avro 最後一個要來談的 binary encoding 方式是 Apache Avro ,閞始於 Hadoop 底下的子專案,它很明...

鐵人賽 AI & Data DAY 14
資料工程師修煉之路 系列 第 14

技術 [Day 14] Encoding and Evolution(2) - Json, XML, CSV 和 Binary variants (二進制變體)

接續 Day 13 JSON, XML, CSV 和 Binary Variants (二進制變體) JSON, XML, CSV 都是很廣泛為人知、多人使...

鐵人賽 AI & Data DAY 10
資料工程師修煉之路 系列 第 10

技術 [Day 10] Storage and Retrieval(3) - B-Tree and comparing LSM-Trees

B-Tree 再來要介紹一個非常常用的 index 結構 B-Tree 和它會用到 storage engine (儲存引擎) page-oriented ,...

鐵人賽 AI & Data DAY 11
資料工程師修煉之路 系列 第 11

技術 [Day 11] Storage and Retrieval(4) - OLTP and OLAP

Transaction Processing or Analytics? 每一個資料庫都能許多種不同型態的資料,如 blog 貼文、遊戲資料、聯絡人資訊等等,應...

鐵人賽 AI & Data DAY 5
資料工程師修煉之路 系列 第 5

技術 [Day 5] Data Model (2) - Relational Versus Document Model

接續 Day 4 內容 Relational vs. Document database 這裡有許多可以比較的點,像容錯能力和如何處理並行執行緒,但最主要的...

鐵人賽 AI & Data DAY 12
資料工程師修煉之路 系列 第 12

技術 [Day 12] Storage and Retrieval(5) - Column-Oriented Storage

接續 Day 11 Column-Oriented Storage 想像一下如果你的 fact table 有上兆筆資料,資料大小是 PB,dimensio...

鐵人賽 AI & Data DAY 28

技術 [Day 28] 資料產品開發實務 - 非機器學習模型

模型當然也有純理論的介紹方法,但實務上是很難單談模型的,今天這篇會介紹過去常用、也滿泛用的不需要使用機器模型的分析手法以及對應的商業需求。 人口描述 (http...

鐵人賽 AI & Data DAY 8
資料工程師修煉之路 系列 第 8

技術 [Day 8] Storage and Retrieval (1) - Log structured and Hash Index

前面幾天我們談了 Data Model,為你的數據系統挑個合適 Data Model 後,接下來就要談談怎麼儲存與檢索了,資料庫 (database) 就做這...

鐵人賽 AI & Data DAY 29

技術 [Day 29] 資料產品開發實務 - 自動貼標系統

「懶惰是進步的原動力」 科技的進步降低了許多事情的門檻,例如過去要會換牌檔才能開車,現在基本上就自排;過去要會打字才能用電腦傳訊息,現在除了打字還可以語音傳圖片...

鐵人賽 AI & Data DAY 2
資料工程師修煉之路 系列 第 2

技術 [Day 2] Reliable, Scalable, and Maintainable Application (1)

其實今天的很多系統都是 數據密集型 應用系統,也就是 數據量大、複雜、且速度快, 有別 10 幾年前的 計算密集型,CPU 時脈才是系統的瓶頸。 現在的數據密集...

鐵人賽 AI & Data DAY 3
資料工程師修煉之路 系列 第 3

技術 [Day 3] Reliable, Scalable, and Maintainable Application (2)

接續 Day 2 內容 Scalable (可擴充的) 數據系統現在 Reliable 不代表未來也是 Reliable,系統會進步, 這裡討論的 Scal...

鐵人賽 AI & Data DAY 27
資料工程師修煉之路 系列 第 27

技術 [Day 27] Partitioning (1) - Partitioning of key-value data

Day 21 ~ Day 26 我們討論了如何將資料分散到不同節點的 Replication,對那些大型資料集或超大的查詢吞吐量來說,只用 Replicati...

鐵人賽 AI & Data DAY 7
資料工程師修煉之路 系列 第 7

技術 [Day 7] Data Model(4) - Triple-Store Graph Model 和 總結

接續 Day 6 Triple-Stores and SPARQL 最後要談的就是 Triple-store Graph Model,跟之前講的 Prope...

鐵人賽 AI & Data DAY 1

技術 [ Day 1 ] - Pyspark | 介紹 - 什麼是Pyspark?

前言 1. What is Pyspark ? PySpark 顧名思義,也就是Python 的一個Spark Library,主要是利用Python語法結合S...

鐵人賽 AI & Data DAY 7

技術 Transactions (5-2) - Serializability Isolation - SSI & Summary

續 Day 6。 強列建議閱讀本文之前要先去看 Day 4 - Snapshot Isolation。 3. 序列化快照隔離 SSI (Serializab...

鐵人賽 AI & Data DAY 15
資料工程師修煉之路 系列 第 15

技術 [Day 15] Encoding and Evolution(3) - Thrift and Protocol Buffers

接續 Day 14 Thrift and Protocol Buffers 再來要講的 binary encoding 工具就是 Apache Thrift...

鐵人賽 AI & Data DAY 17
資料工程師修煉之路 系列 第 17

技術 [Day 17] Encoding and Evolution (4-2) - Avro Evolution

接續 Day 16 Writer's schema and Reader's schema 這裡 Avro 把 encoding 跟 decoding 動作...

鐵人賽 AI & Data DAY 29
資料工程師修煉之路 系列 第 29

技術 [Day 29] Partitioning (3) - Rebalancing Partitions

Rebalancing Partitions 每經過一段時間,資料庫可能會因為以下幾件事情改變: 為了想提高查詢的吞吐量,所以你加了 CPU。 資料的大小增加...

鐵人賽 AI & Data DAY 4

技術 Transactions (3-2) - Weak Isolation Levels - Snapshot Isolation

續 Day 3 Snapshot Isolation 和 Repeatable read 先來看個 read committed 等級的隔離下會發生的靈異現...

鐵人賽 AI & Data DAY 21
資料工程師修煉之路 系列 第 21

技術 [Day 21] Replication (1) - Leaders and Followers

這幾天講的主軸是 Replication (數據複製),如果你的資料不會變動,做到 Replication 很簡單,只要把資料複製到別的節點就好了,搞定! 但資...

鐵人賽 AI & Data DAY 30

技術 [Day 30] 資料產品開發實務 - 完結撒花!

終於撐完三十天啦啊啊啊啊!!!沒想到自己有一天也能完成這個壯舉(拭淚),真的太敬佩各路大神以及前輩了Orz,也非常感謝各位讀者的支持,不管是幫忙點擊、按讚、分享...

鐵人賽 AI & Data DAY 5

技術 [Day 5] 資料產品第二層 - 資料加工術 - 資料聚合

即便是相同原料經過不同師傅的手藝也會呈現不同的味道(昨天吃的游壽司) 當資料經過基本篩檢後,也會根據後續使用的需求將資料聚合(資料聚合就是將資料從細的顆粒度聚合...

鐵人賽 AI & Data DAY 19

技術 [Day 19] 資料產品的管理-資料治理初探

前面花了不少篇幅在討論資料產品的開發,接下來將花一些篇幅討論資料產品的治理方式。 在做資料產品治理時,有一個很重要的觀念「將資料當作資產」。如果前面介紹過的,資...

鐵人賽 AI & Data DAY 3

技術 Transactions (3-1) - Weak Isolation Levels - Read Committed

前言 如果兩個 transaction 沒有接觸到相同的資料,則它們可以很愉快的 並發 (concurrent) 執行,因為他們彼此不依賴。 並發的問題只會發生...