iT邦幫忙

data engineer相關文章
共有 125 則文章
鐵人賽 AI & Data DAY 9

技術 [Day 9] 資料產品第五層 - 自動決策與 AI

資料的最終目的就是替代人力。 (https://qz.com/217199/softbanks-humanoid-robot-will-be-great-for...

鐵人賽 AI & Data DAY 28
資料工程師修煉之路 系列 第 28

技術 [Day 28] Partitioning (2) - Partitioning and Secondary Indexes

Partitioning and Secondary Indexes 昨天談了 key-value partition,但在實務上,我們可能會為一些具指標性的欄...

鐵人賽 AI & Data DAY 24

技術 [Day 24] 資料產品在部署階段的五個大坑

上線之後才是開始。 第一坑 開發和部署環境不一致 如果一開始開發和部署沒有「喬好」環境的話,那上線的過程可是會吃一番苦頭。例如搞不清楚環境有哪些套件,只好正式環...

鐵人賽 AI & Data DAY 13

技術 [Day 13] 資料產品生命週期管理-加工資料(二)

接續上篇 介紹一下一般開發 ETL 的流程。每隻 ETL 都可以看作是獨立的程式,有獨立的開發流程。 Implment 設計原型 跟一般的軟體開發一樣,先從最關...

鐵人賽 AI & Data DAY 6

技術 [Day 6] 資料產品第三層 - 描述性模型

這邊指的模型不只是最近很潮的機器學習或深度學習,而是廣泛指透過資料建立用來代表現實的抽象概念(白話來說就是一堆數學)。模型並不是資料本身,但好的模型會能表現資料...

鐵人賽 AI & Data DAY 18
資料工程師修煉之路 系列 第 18

技術 [Day 18] Encoding and Evolution (5-1) - Mode of Dataflow - DB, REST API, RPC

Day 13 ~ 17 主要講資料記憶體如何存成檔案或 binary 的格式,也就是 encoding 和 decoding,到了最後一部份,要講講資料有哪幾種...

鐵人賽 AI & Data DAY 24
資料工程師修煉之路 系列 第 24

技術 [Day 24] Replication (4-1) - Leaderless Replication

Leaderless Replication 在過去 relational 資料庫主宰過的那個時代中,Leaderless replication (無 lea...

鐵人賽 AI & Data DAY 23

技術 Batch Processing (1) - Batch Processing with Unix Tools

Batch Processing 從去年開始寫 本系列文 開始到現在,我們著墨的都是現代系統的樣子,你發送 request 或送一個查詢,然後系統回給你 res...

鐵人賽 AI & Data DAY 22

技術 [Day 22] 資料產品在需求訪談階段的五個大坑

最後幾天來回顧一下在過去開發資料產品時常見的坑與應對方式,不管是專案還是產品,首先當然要面對的難題就是需求訪談。 第一坑 完全沒有畫面 資料產品在需求訪談階段通...

鐵人賽 AI & Data DAY 20

技術 [Day 20] 資料產品與 DataOps 價值

資料可以是資產、也可以是負債。 當組織積累了太多無用、甚至錯誤的資料時,資料不但不能提供價值,反而需要花更多力氣與時間去儲存、除錯、整理它,變成了負債。 為了讓...

鐵人賽 AI & Data DAY 26

技術 [Day 26] 資料產品開發實務 - 原始資料 - Event Tracking

前面說了那麼多理論,最後幾天來寫一下開發實務吧!今天要介紹的是怎麼收集 App 使用者行為資料。 Initiate 追蹤事件是需要成本的,這些成本包括開發、蒐集...

鐵人賽 AI & Data DAY 26
資料工程師修煉之路 系列 第 26

技術 [Day 26] Replication (4-3) - Leaderless Replication - Detecting Concurrent Writes & 結論

延續 (Day 25) Detecting Concurrent Writes Dynamo-style 資料庫允許多個 client 同時寫同一個 key...

鐵人賽 AI & Data DAY 3

技術 [Day 3] 資料產品第一層 - 原始資料的類型

原始資料可能來自非常多不同的地方,我們可以根據資料產生的方式來加以分類 感應器資料 這邊泛指各種 Sensor 測量得到的資料。Sensor 是普遍用來將資訊資...

鐵人賽 AI & Data DAY 23
資料工程師修煉之路 系列 第 23

技術 [Day 23] Replication (3) - Multi-Leader Replication

Multi-Leader Replication 在 leader-base (Day 21) 的架構下有個主要的缺點,就是只有一個 leader,所有的寫入必...

鐵人賽 AI & Data DAY 12

技術 [Day 12] 資料產品生命週期管理-加工資料(一)

加工資料泛指各種處理資料的行為,這部分要一篇文章寫完真滴難,所以就也只能蜻蜓點水的各介紹一點,讓大家有個整體的概觀。 Initiate 在啟動階段,目標當然是弄...

鐵人賽 AI & Data DAY 7

技術 [Day 7] 資料產品第三層 - 預測模型

大部分的人對於資料開始產生興趣,不外乎就是因為想要預測未來。 (https://www.livebitcoinnews.com/bitcoin-price-an...

鐵人賽 AI & Data DAY 10

技術 Trouble with Distributed Systems (3-1) - Unreliable Clocks

不可靠的時鐘 (Unreliable Clocks) 時鐘對應用程式來說很重要,它可以回答以下問題: 這個 request 該 timeout 了嗎? 服務的...

鐵人賽 AI & Data DAY 16

技術 [Day 16] 資料產品生命週期管理-預測模型的部署與管理(MLOps)

昨天提到了怎麼開發預測模型,但模型絕對不是開發完就好,後續還有非常多的事情得做。 Deployment 模型在部署時真的非常麻煩。 Build 出來的模型往往...

鐵人賽 AI & Data DAY 8

技術 [Day 8] 資料產品第四層 - 你會畫圖嗎?

前面我們花了好幾篇的篇幅在介紹原始資料、加工資料、資料模型,但這些都還沒有辦法讓資料真正發揮價值,要讓資料發揮價值一定是要將「資料」與「決策」相互結合。我們接下...

鐵人賽 AI & Data DAY 14

技術 [Day 14] 資料產品生命週期管理-描述型模型

特別把描述模型和預測模型分開來寫是因為兩者在開發與驗證階段有不小的差異。(https://ubiq.co/analytics-blog/create-opera...

鐵人賽 AI & Data DAY 10

技術 [Day 10] 每家公司都有資料產品

(https://www.manmonthly.com.au/news/graphene-helps-enhance-wear-resistance-minin...

鐵人賽 AI & Data DAY 19
資料工程師修煉之路 系列 第 19

技術 [Day 19] Encoding and Evolution (5-2) - Mode of Dataflow - asynchronous message-passing 和總結

接續 Day 18 通過非同步訊息傳遞的 Data Flow 最後要來介紹 asynchronous message-passing (非同步訊息傳遞) 系...

鐵人賽 AI & Data DAY 28

技術 Stream Processing (1-1) - Transmitting Event Streams

Transmitting Event Streams 最後一個章節是 串流處理 (stream processing),Day 23 ~ Day 27 講的 批...

鐵人賽 AI & Data DAY 20

技術 Consistency and Consensus (4-1) - Atomic Commit and Two-Phase Commit(2pC)

分散式 transaction 和共識 (Distributed Transactions and Consensus) 共識是分散式計算中重要的基礎問題,目標...

鐵人賽 AI & Data DAY 25
資料工程師修煉之路 系列 第 25

技術 [Day 25] Replication (4-2) - Leaderless Replication - Sloppy Quorums and Hinted Handoff

延續 Day 24 Sloppy Quorums and Hinted Handoff 資料庫若有適當的 quorums,它能夠允許獨立的節點掛掉而不用完成...

鐵人賽 AI & Data DAY 21

技術 [Day 21] 資料產品與 DataOps 原則

今天來細看 DataOps 的原則,盡量會搭配過去實作的經驗一起做說明。 1. 持續地滿足客戶需求 我們最優先的任務是透過及早並持續地交付有價值的分析洞察來滿足...

鐵人賽 AI & Data DAY 17

技術 [Day 17] 資料產品生命週期管理-輔助決策

如同前面所說,資料模型需要運用到實際環境中才會發揮價值 Initiation 延續之前模型的初始條件,如果想使用資料來輔助決策,最重要的就是要釐清想解決的問題是...

鐵人賽 AI & Data DAY 26

技術 Batch Processing (3-2) - MapReduce Map-Side Joins

[Day 26] Batch Processing (3-2) - MapReduce Map-Side Joins 續 Day 25 Map-Side J...

鐵人賽 AI & Data DAY 20
資料工程師修煉之路 系列 第 20

技術 [Day 20] Distributed Data

Day 2 ~ Day19 的內容是這本書的 Part I,討論的都是系統中的資料如何在 單一機器 作業,在接下來的 10 天,也是這本書的 Part II,就...

鐵人賽 AI & Data DAY 15

技術 [Day 15] 資料產品生命週期管理-預測模型

儘管都是模型,但預測模型目的在於預測未來,所以開發方式也會和描述型模型有所差異。 Initiation 起始階段要確認的事情跟之前差不多。 商業意圖是否明確:商...