iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

3 Like 0 留言 38393 瀏覽

徵才【SHOPLINE 招募中】Backend (RoR, Go) / Data Engineer (Batch, Streaming) / Frontend (React) / SRE / QA

【關於工程團隊】SHOPLINE 台灣研發團隊有超過百位工程師，分為前後端、測試、數據、雲端維運等團隊，台北辦公室採混合辦公模式，目前 Backend、Fron...

shoplinetwhr ‧ 2024-12-03

1 Like 0 留言 8396 瀏覽

鐵人賽 AI & Data DAY 4

資料工程師修煉之路系列第 4 篇

技術 [Day 4] Data Model (1) - Relational Model and Document Model

資料模型 (Data Model) 是所有軟體開發中最重要的環節，每個資料表示層級要如何向更低層級表達資料項目？看起來有點饒舌，資料表示層級舉例來看：應...

tshine73 ‧ 2020-09-19

0 Like 0 留言 5965 瀏覽

鐵人賽 AI & Data DAY 27

資料產品開發與專案管理系列第 27 篇

技術 [Day 27] 資料產品開發實務 - 加工資料 - ETL 開發流程

介紹一下一般開發 ETL 的流程。每隻 ETL 都可以看作是獨立的程式，有獨立的開發流程。但是不同的 ETL 程式又可以使用類似的系統或架構來幫助開發和管理。...

bryanyang0528 ‧ 2021-09-27

1 Like 0 留言 5917 瀏覽

鐵人賽 AI & Data DAY 1

資料工程師修煉之路 Part II 系列第 1 篇

技術 Transactions (1) - ACID

此系列是資料工程師修煉之路的後半部份，一樣是 Design Data Intensive Applications 的摘要 + 經驗分享，所有的圖片都是...

tshine73 ‧ 2021-09-01

0 Like 0 留言 5177 瀏覽

鐵人賽 AI & Data DAY 1

30天胡搞瞎搞學會pyspark 系列第 1 篇

技術 [ Day 1 ] - Pyspark | 介紹 - 什麼是Pyspark?

前言 1. What is Pyspark ? PySpark 顧名思義,也就是Python 的一個Spark Library，主要是利用Python語法結合S...

vivi_vey ‧ 2023-09-16

1 Like 0 留言 5136 瀏覽

鐵人賽 AI & Data DAY 6

資料工程師修煉之路 Part II 系列第 6 篇

技術 Transactions (5-1) - Serializability Isolation - Serial & 2PL

昨天談到 write skew 和 phantoms ，是 2 種特別難重現的競爭條件 (race condition) 情況，也就代表無法針對這些情況做測試...

tshine73 ‧ 2021-09-06

2 Like 0 留言 4828 瀏覽

鐵人賽 AI & Data DAY 9

資料工程師修煉之路系列第 9 篇

技術 [Day 9] Storage and Retrieval(2) - SSTables and LSM-Tree

接續 Day 8 SSTables 延續前一天講的 log-structure，其中我們在意的是相同 key 的資料順序要對，如此才能知道哪筆資料是新的嘛，...

tshine73 ‧ 2020-09-24

1 Like 0 留言 4808 瀏覽

鐵人賽 AI & Data DAY 14

資料工程師修煉之路系列第 14 篇

技術 [Day 14] Encoding and Evolution(2) - Json, XML, CSV 和 Binary variants (二進制變體)

接續 Day 13 JSON, XML, CSV 和 Binary Variants (二進制變體) JSON, XML, CSV 都是很廣泛為人知、多人使...

tshine73 ‧ 2020-09-29

1 Like 0 留言 4700 瀏覽

鐵人賽 AI & Data DAY 16

資料工程師修煉之路系列第 16 篇

技術 [Day 16] Encoding and Evolution(4) - Avro

接續 Day 15 Avro 最後一個要來談的 binary encoding 方式是 Apache Avro ，閞始於 Hadoop 底下的子專案，它很明...

tshine73 ‧ 2020-10-01

2 Like 0 留言 4190 瀏覽

鐵人賽 AI & Data DAY 10

資料工程師修煉之路系列第 10 篇

技術 [Day 10] Storage and Retrieval(3) - B-Tree and comparing LSM-Trees

B-Tree 再來要介紹一個非常常用的 index 結構 B-Tree 和它會用到 storage engine (儲存引擎) page-oriented ，...

tshine73 ‧ 2020-09-25

1 Like 0 留言 4092 瀏覽

鐵人賽 AI & Data DAY 6

資料工程師修煉之路系列第 6 篇

技術 [Day 6] Data Model(3) - Graph-Like Data Model

接續 Day 5 Graph Data Model 初探最後要來談談 Graph Data Model，若你軟體的資料關係是大部份一對多，使用 Docum...

tshine73 ‧ 2020-09-21

1 Like 0 留言 3815 瀏覽

鐵人賽 AI & Data DAY 5

資料工程師修煉之路系列第 5 篇

技術 [Day 5] Data Model (2) - Relational Versus Document Model

接續 Day 4 內容 Relational vs. Document database 這裡有許多可以比較的點，像容錯能力和如何處理並行執行緒，但最主要的...

tshine73 ‧ 2020-09-20

2 Like 0 留言 3470 瀏覽

鐵人賽 AI & Data DAY 11

資料工程師修煉之路系列第 11 篇

技術 [Day 11] Storage and Retrieval(4) - OLTP and OLAP

Transaction Processing or Analytics? 每一個資料庫都能許多種不同型態的資料，如 blog 貼文、遊戲資料、聯絡人資訊等等，應...

tshine73 ‧ 2020-09-26

1 Like 0 留言 3318 瀏覽

鐵人賽 AI & Data DAY 12

資料工程師修煉之路系列第 12 篇

技術 [Day 12] Storage and Retrieval(5) - Column-Oriented Storage

接續 Day 11 Column-Oriented Storage 想像一下如果你的 fact table 有上兆筆資料，資料大小是 PB，dimensio...

tshine73 ‧ 2020-09-27

1 Like 0 留言 3280 瀏覽

鐵人賽 AI & Data DAY 3

資料工程師修煉之路系列第 3 篇

技術 [Day 3] Reliable, Scalable, and Maintainable Application (2)

接續 Day 2 內容 Scalable (可擴充的) 數據系統現在 Reliable 不代表未來也是 Reliable，系統會進步，這裡討論的 Scal...

tshine73 ‧ 2020-09-18

0 Like 0 留言 3235 瀏覽

鐵人賽 AI & Data DAY 29

資料產品開發與專案管理系列第 29 篇

技術 [Day 29] 資料產品開發實務 - 自動貼標系統

「懶惰是進步的原動力」科技的進步降低了許多事情的門檻，例如過去要會換牌檔才能開車，現在基本上就自排；過去要會打字才能用電腦傳訊息，現在除了打字還可以語音傳圖片...

bryanyang0528 ‧ 2021-09-29

1 Like 0 留言 3196 瀏覽

鐵人賽 AI & Data DAY 7

資料工程師修煉之路系列第 7 篇

技術 [Day 7] Data Model(4) - Triple-Store Graph Model 和總結

接續 Day 6 Triple-Stores and SPARQL 最後要談的就是 Triple-store Graph Model，跟之前講的 Prope...

tshine73 ‧ 2020-09-22

0 Like 0 留言 3173 瀏覽

鐵人賽 AI & Data DAY 13

Data pipeline 建起來！用 Airflow 開發你的 Data pipeline 系列第 13 篇

技術『Day13』安裝 Airflow

剛開始學習程式的時候，對我來說最讓我感到挫折的就是環境安裝的問題。由於許多背景知識的不足，以及系統版本和程式版本非常的複雜，總是需要花上許多時間跟精力進行安裝及...

無聊工程師 bored_engineer ‧ 2023-09-28

1 Like 0 留言 3058 瀏覽

鐵人賽 AI & Data DAY 8

資料工程師修煉之路系列第 8 篇

技術 [Day 8] Storage and Retrieval (1) - Log structured and Hash Index

前面幾天我們談了 Data Model，為你的數據系統挑個合適 Data Model 後，接下來就要談談怎麼儲存與檢索了，資料庫 (database) 就做這...

tshine73 ‧ 2020-09-23

1 Like 0 留言 3016 瀏覽

鐵人賽 AI & Data DAY 27

資料工程師修煉之路系列第 27 篇

技術 [Day 27] Partitioning (1) - Partitioning of key-value data

Day 21 ~ Day 26 我們討論了如何將資料分散到不同節點的 Replication，對那些大型資料集或超大的查詢吞吐量來說，只用 Replicati...

tshine73 ‧ 2020-10-12

0 Like 0 留言 2906 瀏覽

鐵人賽 AI & Data DAY 28

資料產品開發與專案管理系列第 28 篇

技術 [Day 28] 資料產品開發實務 - 非機器學習模型

模型當然也有純理論的介紹方法，但實務上是很難單談模型的，今天這篇會介紹過去常用、也滿泛用的不需要使用機器模型的分析手法以及對應的商業需求。人口描述 (http...

bryanyang0528 ‧ 2021-09-28

1 Like 0 留言 2902 瀏覽

鐵人賽 AI & Data DAY 21

資料工程師修煉之路系列第 21 篇

技術 [Day 21] Replication (1) - Leaders and Followers

這幾天講的主軸是 Replication (數據複製)，如果你的資料不會變動，做到 Replication 很簡單，只要把資料複製到別的節點就好了，搞定！但資...

tshine73 ‧ 2020-10-06

1 Like 0 留言 2883 瀏覽

鐵人賽 AI & Data DAY 2

資料工程師修煉之路系列第 2 篇

技術 [Day 2] Reliable, Scalable, and Maintainable Application (1)

其實今天的很多系統都是數據密集型應用系統，也就是數據量大、複雜、且速度快，有別 10 幾年前的計算密集型，CPU 時脈才是系統的瓶頸。現在的數據密集...

tshine73 ‧ 2020-09-17

1 Like 0 留言 2766 瀏覽

鐵人賽 AI & Data DAY 29

資料工程師修煉之路系列第 29 篇

技術 [Day 29] Partitioning (3) - Rebalancing Partitions

Rebalancing Partitions 每經過一段時間，資料庫可能會因為以下幾件事情改變：為了想提高查詢的吞吐量，所以你加了 CPU。資料的大小增加...

tshine73 ‧ 2020-10-14

0 Like 0 留言 2763 瀏覽

鐵人賽 AI & Data DAY 11

Data pipeline 建起來！用 Airflow 開發你的 Data pipeline 系列第 11 篇

技術『Day11』Airflow 介紹

不瞞大家，這幾天其實我在日本旅遊當中，所以鐵人賽對我來說真的是很鍛鍊啊！每天有很多行程之外，結束後還是要抓緊時間寫文章，真的是極度瘋狂！但是這過程中卻也覺得十分...

無聊工程師 bored_engineer ‧ 2023-09-26

1 Like 0 留言 2719 瀏覽

鐵人賽 AI & Data DAY 15

資料工程師修煉之路系列第 15 篇

技術 [Day 15] Encoding and Evolution(3) - Thrift and Protocol Buffers

接續 Day 14 Thrift and Protocol Buffers 再來要講的 binary encoding 工具就是 Apache Thrift...

tshine73 ‧ 2020-09-30

1 Like 0 留言 2692 瀏覽

鐵人賽 AI & Data DAY 26

資料工程師修煉之路系列第 26 篇

技術 [Day 26] Replication (4-3) - Leaderless Replication - Detecting Concurrent Writes & 結論

延續 (Day 25) Detecting Concurrent Writes Dynamo-style 資料庫允許多個 client 同時寫同一個 key...

tshine73 ‧ 2020-10-11

0 Like 0 留言 2581 瀏覽

鐵人賽 AI & Data DAY 7

資料工程師修煉之路 Part II 系列第 7 篇

技術 Transactions (5-2) - Serializability Isolation - SSI & Summary

續 Day 6。強列建議閱讀本文之前要先去看 Day 4 - Snapshot Isolation。 3. 序列化快照隔離 SSI (Serializab...

tshine73 ‧ 2021-09-07

0 Like 0 留言 2564 瀏覽

鐵人賽 AI & Data DAY 20

資料工程師修煉之路 Part II 系列第 20 篇

技術 Consistency and Consensus (4-1) - Atomic Commit and Two-Phase Commit(2pC)

分散式 transaction 和共識 (Distributed Transactions and Consensus) 共識是分散式計算中重要的基礎問題，目標...

tshine73 ‧ 2021-09-20

0 Like 0 留言 2435 瀏覽