iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

0 Like 0 留言 1415 瀏覽

鐵人賽 AI & Data DAY 17

資料產品開發與專案管理系列第 17 篇

技術 [Day 17] 資料產品生命週期管理-輔助決策

如同前面所說，資料模型需要運用到實際環境中才會發揮價值 Initiation 延續之前模型的初始條件，如果想使用資料來輔助決策，最重要的就是要釐清想解決的問題是...

bryanyang0528 ‧ 2021-09-17

0 Like 0 留言 1650 瀏覽

鐵人賽 AI & Data DAY 17

資料工程師修煉之路 Part II 系列第 17 篇

技術 Consistency and Consensus (3-1) - Ordering Guarantees

順序這件事在 Design Data Intensive Applications 這本書中重複到提到了很多次，代表了它是重要的基礎知識，2020 年寫到現在...

tshine73 ‧ 2021-09-17

0 Like 0 留言 929 瀏覽

鐵人賽 AI & Data DAY 16

資料工程師修煉之路 Part II 系列第 16 篇

技術 Consistency and Consensus (2-2) - Implementing Linearizable

續 Day 15 依賴線性一致性的場景鎖和 leader 選舉若系統是 single-leader，一個選 leader 的方式是使用鎖，所有節點都嘗試...

tshine73 ‧ 2021-09-16

0 Like 0 留言 1654 瀏覽

鐵人賽 AI & Data DAY 16

資料產品開發與專案管理系列第 16 篇

技術 [Day 16] 資料產品生命週期管理-預測模型的部署與管理(MLOps)

昨天提到了怎麼開發預測模型，但模型絕對不是開發完就好，後續還有非常多的事情得做。 Deployment 模型在部署時真的非常麻煩。 Build 出來的模型往往...

bryanyang0528 ‧ 2021-09-16

0 Like 0 留言 1485 瀏覽

鐵人賽 AI & Data DAY 15

資料產品開發與專案管理系列第 15 篇

技術 [Day 15] 資料產品生命週期管理-預測模型

儘管都是模型，但預測模型目的在於預測未來，所以開發方式也會和描述型模型有所差異。 Initiation 起始階段要確認的事情跟之前差不多。商業意圖是否明確：商...

bryanyang0528 ‧ 2021-09-15

0 Like 0 留言 1762 瀏覽

鐵人賽 AI & Data DAY 15

資料工程師修煉之路 Part II 系列第 15 篇

技術 Consistency and Consensus (2-1) - Linearizability

Linearizability 線性一致性 (Linearizability) 的概念就是原來有多份副本的資料庫變成只有一份，這樣就不會有往不同副本讀取資料卻得...

tshine73 ‧ 2021-09-15

0 Like 0 留言 1746 瀏覽

鐵人賽 AI & Data DAY 14

資料產品開發與專案管理系列第 14 篇

技術 [Day 14] 資料產品生命週期管理-描述型模型

特別把描述模型和預測模型分開來寫是因為兩者在開發與驗證階段有不小的差異。(https://ubiq.co/analytics-blog/create-opera...

bryanyang0528 ‧ 2021-09-14

0 Like 0 留言 940 瀏覽

鐵人賽 AI & Data DAY 14

資料工程師修煉之路 Part II 系列第 14 篇

技術 Consistency and Consensus (1) - Consistency Guarantees

終於要開始講建立分散式容錯系統會用到的演算法和協定啦！Day 14 ~ Day 20 的內容都是假設 Day 8 ~ Day 13 的鬼故事會發生，像封包遺失、...

tshine73 ‧ 2021-09-14

0 Like 0 留言 2104 瀏覽

鐵人賽 AI & Data DAY 13

資料產品開發與專案管理系列第 13 篇

技術 [Day 13] 資料產品生命週期管理-加工資料（二）

接續上篇介紹一下一般開發 ETL 的流程。每隻 ETL 都可以看作是獨立的程式，有獨立的開發流程。 Implment 設計原型跟一般的軟體開發一樣，先從最關...

bryanyang0528 ‧ 2021-09-13

0 Like 0 留言 1077 瀏覽

鐵人賽 AI & Data DAY 13

資料工程師修煉之路 Part II 系列第 13 篇

技術 Trouble with Distributed Systems (4-2) - System Model & Summary

續 Day 12 今天的特別理論和抽象，所以懶得看就跳過吧！系統模型和現實 (System Model and Reality) 很多演算法是被設計來解決...

tshine73 ‧ 2021-09-13

0 Like 0 留言 1661 瀏覽

鐵人賽 AI & Data DAY 12

資料產品開發與專案管理系列第 12 篇

技術 [Day 12] 資料產品生命週期管理-加工資料（一）

加工資料泛指各種處理資料的行為，這部分要一篇文章寫完真滴難，所以就也只能蜻蜓點水的各介紹一點，讓大家有個整體的概觀。 Initiate 在啟動階段，目標當然是弄...

bryanyang0528 ‧ 2021-09-12

0 Like 0 留言 1440 瀏覽

鐵人賽 AI & Data DAY 12

資料工程師修煉之路 Part II 系列第 12 篇

技術 Trouble with Distributed Systems (4-1) - Truth and Lies

前幾天講了跟分散式系統有關的網路不可靠、時鐘不可靠的鬼故事，不可靠的東西這麼多，我們要如何判斷真與假呢？在分散式系統中，我們可以陳述我們對行為所做的假設（系統模...

tshine73 ‧ 2021-09-12

0 Like 0 留言 2232 瀏覽

鐵人賽 AI & Data DAY 11

資料產品開發與專案管理系列第 11 篇

技術 [Day 11] 資料產品生命週期管理-原始資料

不同類型的資料產品在其各自專案週期有需要注意的地方，以下我們將說明在處理原始資料時，各階段應該做的事情 Initiate 在初始階段，最重要的就是要了解搜集資料...

bryanyang0528 ‧ 2021-09-11

0 Like 0 留言 1313 瀏覽

鐵人賽 AI & Data DAY 11

資料工程師修煉之路 Part II 系列第 11 篇

技術 Trouble with Distributed Systems (3-2) - Unreliable Clocks

接續 Day 10 時鐘同步和精度 (CLock Synchronization and Accuracy) 昨天講的單調遞增時鐘 (Monotonic...

tshine73 ‧ 2021-09-11

0 Like 0 留言 1644 瀏覽

鐵人賽 AI & Data DAY 10

資料產品開發與專案管理系列第 10 篇

技術 [Day 10] 每家公司都有資料產品

(https://www.manmonthly.com.au/news/graphene-helps-enhance-wear-resistance-minin...

bryanyang0528 ‧ 2021-09-10

0 Like 0 留言 2229 瀏覽

鐵人賽 AI & Data DAY 10

資料工程師修煉之路 Part II 系列第 10 篇

技術 Trouble with Distributed Systems (3-1) - Unreliable Clocks

不可靠的時鐘 (Unreliable Clocks) 時鐘對應用程式來說很重要，它可以回答以下問題：這個 request 該 timeout 了嗎？服務的...

tshine73 ‧ 2021-09-10

0 Like 0 留言 1952 瀏覽

鐵人賽 AI & Data DAY 9

資料產品開發與專案管理系列第 9 篇

技術 [Day 9] 資料產品第五層 - 自動決策與 AI

資料的最終目的就是替代人力。 (https://qz.com/217199/softbanks-humanoid-robot-will-be-great-for...

bryanyang0528 ‧ 2021-09-09

0 Like 0 留言 1310 瀏覽

鐵人賽 AI & Data DAY 9

資料工程師修煉之路 Part II 系列第 9 篇

技術 Trouble with Distributed Systems (2) - Unreliable Networks

不可靠的網路 (Unreliable Networks) 從 2020 Day 21 - Replication 之後的文章，我們的分散式系統都是都是聚焦在無...

tshine73 ‧ 2021-09-09

0 Like 0 留言 1871 瀏覽

鐵人賽 AI & Data DAY 8

資料產品開發與專案管理系列第 8 篇

技術 [Day 8] 資料產品第四層 - 你會畫圖嗎？

前面我們花了好幾篇的篇幅在介紹原始資料、加工資料、資料模型，但這些都還沒有辦法讓資料真正發揮價值，要讓資料發揮價值一定是要將「資料」與「決策」相互結合。我們接下...

bryanyang0528 ‧ 2021-09-08

1 Like 0 留言 1410 瀏覽

鐵人賽 AI & Data DAY 8

資料工程師修煉之路 Part II 系列第 8 篇

技術 Trouble with Distributed Systems (1)

之前的文章我們大多都是在談系統出錯了怎麼辦，諸如節點掛掉怎麼做、做副本 (replication) 時 Lag 怎麼辦等等等等；一切就只是希望讓工程師們...

tshine73 ‧ 2021-09-08

0 Like 0 留言 1560 瀏覽

鐵人賽 AI & Data DAY 7

資料產品開發與專案管理系列第 7 篇

技術 [Day 7] 資料產品第三層 - 預測模型

大部分的人對於資料開始產生興趣，不外乎就是因為想要預測未來。 (https://www.livebitcoinnews.com/bitcoin-price-an...

bryanyang0528 ‧ 2021-09-07

0 Like 0 留言 2582 瀏覽

鐵人賽 AI & Data DAY 7

資料工程師修煉之路 Part II 系列第 7 篇

技術 Transactions (5-2) - Serializability Isolation - SSI & Summary

續 Day 6。強列建議閱讀本文之前要先去看 Day 4 - Snapshot Isolation。 3. 序列化快照隔離 SSI (Serializab...

tshine73 ‧ 2021-09-07

1 Like 0 留言 5137 瀏覽

鐵人賽 AI & Data DAY 6

資料工程師修煉之路 Part II 系列第 6 篇

技術 Transactions (5-1) - Serializability Isolation - Serial & 2PL

昨天談到 write skew 和 phantoms ，是 2 種特別難重現的競爭條件 (race condition) 情況，也就代表無法針對這些情況做測試...

tshine73 ‧ 2021-09-06

0 Like 0 留言 1983 瀏覽

鐵人賽 AI & Data DAY 6

資料產品開發與專案管理系列第 6 篇

技術 [Day 6] 資料產品第三層 - 描述性模型

這邊指的模型不只是最近很潮的機器學習或深度學習，而是廣泛指透過資料建立用來代表現實的抽象概念（白話來說就是一堆數學）。模型並不是資料本身，但好的模型會能表現資料...

bryanyang0528 ‧ 2021-09-06

0 Like 0 留言 2425 瀏覽

鐵人賽 AI & Data DAY 5

資料產品開發與專案管理系列第 5 篇

技術 [Day 5] 資料產品第二層 - 資料加工術 - 資料聚合

即便是相同原料經過不同師傅的手藝也會呈現不同的味道(昨天吃的游壽司) 當資料經過基本篩檢後，也會根據後續使用的需求將資料聚合（資料聚合就是將資料從細的顆粒度聚合...

bryanyang0528 ‧ 2021-09-05

0 Like 0 留言 2436 瀏覽

鐵人賽 AI & Data DAY 4

資料工程師修煉之路 Part II 系列第 4 篇

技術 Transactions (3-2) - Weak Isolation Levels - Snapshot Isolation

續 Day 3 Snapshot Isolation 和 Repeatable read 先來看個 read committed 等級的隔離下會發生的靈異現...

tshine73 ‧ 2021-09-04

0 Like 0 留言 2246 瀏覽

鐵人賽 AI & Data DAY 3

資料工程師修煉之路 Part II 系列第 3 篇

技術 Transactions (3-1) - Weak Isolation Levels - Read Committed

前言如果兩個 transaction 沒有接觸到相同的資料，則它們可以很愉快的並發 (concurrent) 執行，因為他們彼此不依賴。並發的問題只會發生...

tshine73 ‧ 2021-09-03

0 Like 0 留言 1782 瀏覽

鐵人賽 AI & Data DAY 3

資料產品開發與專案管理系列第 3 篇

技術 [Day 3] 資料產品第一層 - 原始資料的類型

原始資料可能來自非常多不同的地方，我們可以根據資料產生的方式來加以分類感應器資料這邊泛指各種 Sensor 測量得到的資料。Sensor 是普遍用來將資訊資...

bryanyang0528 ‧ 2021-09-03

0 Like 0 留言 1487 瀏覽

鐵人賽 AI & Data DAY 2

資料工程師修煉之路 Part II 系列第 2 篇

技術 Transactions (2) - Data Object Operation

單物件 (Single-Object) 和多物件 (Multi-Object) 操作多物件 (Multi-Object) 操作 ACID 的原子性和隔離性能讓...

tshine73 ‧ 2021-09-02

1 Like 0 留言 5917 瀏覽

鐵人賽 AI & Data DAY 1

資料工程師修煉之路 Part II 系列第 1 篇

技術 Transactions (1) - ACID

此系列是資料工程師修煉之路的後半部份，一樣是 Design Data Intensive Applications 的摘要 + 經驗分享，所有的圖片都是...

tshine73 ‧ 2021-09-01