iT邦幫忙

data engineer相關文章
共有 147 則文章
鐵人賽 AI & Data DAY 12

技術 Trouble with Distributed Systems (4-1) - Truth and Lies

前幾天講了跟分散式系統有關的網路不可靠、時鐘不可靠的鬼故事,不可靠的東西這麼多,我們要如何判斷真與假呢?在分散式系統中,我們可以陳述我們對行為所做的假設(系統模...

鐵人賽 AI & Data DAY 8

技術 Trouble with Distributed Systems (1)

之前的文章我們大多都是在談系統 出錯 了怎麼辦,諸如 節點掛掉怎麼做、做副本 (replication) 時 Lag 怎麼辦 等等等等;一切就只是希望讓工程師們...

鐵人賽 AI & Data DAY 6

技術 『Day6』 Data pipeline 介紹

管線無所不在,雖然說日常生活中常常不會注意到其存在,但是卻對我們的生活影響非常大。舉例來說,在做裝潢時,就必須要把未來房屋的使用情景進行評估。並且需要針對屋主進...

鐵人賽 AI & Data DAY 29

技術 『Day29』DAG 程式碼設計優化方向

不知不覺已經來到鐵人賽最後兩天了,加油!在讀本篇文章的讀者們,非常感謝你們一路的支持!在本系列的初期,我們有介紹到 Airflow 的設計概念,其中一個很重要的...

鐵人賽 AI & Data DAY 2

技術 『Day 2』什麼是 Data Engineering

記得在學生時期,我因為對於學校的選課網站操作不太習慣,於是便自己寫了一個簡單的爬蟲程式,用來自動抓取課程資訊和教師評價。經整理後,我和朋友合作設計了一個使用者友...

鐵人賽 AI & Data DAY 20

技術 『Day20』Variable 與 Template

在前兩天陸續介紹了 Airflow 如何進行參數傳遞的主題,以及 XCom 的設計及使用方法。今天接續著參數的話題來談談 Airflow Variable 及...

鐵人賽 AI & Data DAY 11

技術 Trouble with Distributed Systems (3-2) - Unreliable Clocks

接續 Day 10 時鐘同步和精度 (CLock Synchronization and Accuracy) 昨天講的 單調遞增時鐘 (Monotonic...

鐵人賽 AI & Data DAY 9

技術 Trouble with Distributed Systems (2) - Unreliable Networks

不可靠的網路 (Unreliable Networks) 從 2020 Day 21 - Replication 之後的文章,我們的分散式系統都是都是聚焦在 無...

鐵人賽 AI & Data DAY 19

技術 Consistency and Consensus (3-3) - Total Order Broadcast

[Day 19] Consistency and Consensus (3-3) - Total Order Broadcast 續 Day 18 Tota...

鐵人賽 AI & Data DAY 25

技術 [Day 25] 資料產品在評估階段的五個大坑

在評估階段有幾件面向需要注意 資料產品品質 資料產品品質是需要持續監控和評估的。不同層的資料產品有不同的品質指標,基本上很難一次到位,需要持續增加觀察的指標。例...

鐵人賽 AI & Data DAY 25

技術 Batch Processing (3-1) - MapReduce Reduce-Side Joins and Grouping

Reduce-Side Joins and Grouping 當 MapReuce Job 執行時,它會讀取所有的輸入資料,相較於資料庫來說等於 全表掃描 (f...

鐵人賽 DevOps DAY 3

技術 【Day 3】DataOps 是什麼?

1. DataOps 名稱由來 DataOps 最早是 Lenny Liebmann 在 2014 年提出,主要是為了優化數據流的整合和自動化,進而確保數據質量...

鐵人賽 AI & Data DAY 24

技術 Batch Processing (2) - MapReduce Job Execution

MapReduce and Distributed Filesystems MapReduce 有點像 昨天 講的 Unix 工具,它通常不會修改到輸入檔案,除...

鐵人賽 AI & Data DAY 21

技術 Consistency and Consensus (4-2) - Fault-Tolerant Consensus

續 Day 20 Fault-Tolerant Consensus 共識問題通常可以公式化成:一個或多個節點可以提議,然後共識演算法從其提議中做決定。 舉個...

鐵人賽 AI & Data DAY 18

技術 [Day 18] 資料產品生命週期管理-自動決策

如同前面所說,資料模型需要運用到實際環境中才會發揮價值 Initiation 延續之前輔助決策的初始條件,如果想使用資料來做自動決策,最重要的一樣是要釐清想解決...

鐵人賽 AI & Data DAY 18

技術 Consistency and Consensus (3-2) - Lamport Timestamp

續 Day 17 序列號排序 (Sequence Number Ordering) 使用 timestamp 是排序事件的好方法,我們曾在 2021 Day...

鐵人賽 AI & Data DAY 4

技術 『Day4』資料工程師所需之技能

作為資料工程師,或說是負責處理資料工程的角色,我們需要具備什麼能力呢?其實從過去到現在的資料工程師的角色,隨著應用的不同以及工具的演變,資料工程師的角色默默的在...

鐵人賽 AI & Data DAY 3

技術 [ Day 3 ] - Pyspark | 介紹 - DataFrame篇 - Data Overview

上一篇簡述了5個讀取資料的方法,是不是開始迫不及待的想要馬上開始進行Data的操作啦先別急先別急,在我們開始實際針對DataFrame 進行操作之前, 先來看看...

技術 Databricks Certified Data Engineer Associate 高分備考指南- Overview

前言 這是一篇關於如何取得Databricks Data Engineer Associate的備考指南,希望可以通過這一篇文章幫助大家也可以取得證照。 Pre...

鐵人賽 AI & Data DAY 24

技術 『Day24』來做個天氣資訊 DAG 吧 (下)

昨天我們建立了天氣資訊 DAG 的基本架構和流程。今天我們來繼續實作細部的 Task 工作。首先我們從 Extract Function 進行實作。 實作 Ex...

鐵人賽 AI & Data DAY 23

技術 『Day23』來做個天氣資訊 DAG 吧 (上)

還記得我們第一次寫的 first_dag 嗎?當時只是基本的寫了一個 DAG 的雛形,在經過這幾天更了解 DAG 各個元件之後,大家是不是覺得躍躍欲試呢,相信大...

技術 【Day 25】 做題庫小試身手 - 6

題目 題庫 Questions Q19 A data engineer must orchestrate a series of Amazon Athe...

鐵人賽 AI & Data DAY 29

技術 Stream Processing (1-2) - Acknowledgments & Partitioned Logs

續 Day 28 Acknowledgments and redelivery 老樣子,消費者任何時間都有可能故障,有可能發生 訊息代理 (message...

鐵人賽 AI & Data DAY 25

技術 『Day25』使用 View 來監控執行狀況

在前兩天中,我們開發了天氣資訊的 DAG,我們知道在軟體工程的實踐中,開發只是一個部分,開發完成之後,後續的維運、監控以及持續的修正也是非常的重要。Airflo...

鐵人賽 AI & Data DAY 28

技術 『Day28』部署 DAG

在我們開發完成 DAG 之後,通常並非一次性就結束了,隨著時間過去,需求有持續不斷的改變,而我們的程式也必須持續的修改以及優化。有一個良好的開發流程以及 CI/...

鐵人賽 AI & Data DAY 13

技術 Trouble with Distributed Systems (4-2) - System Model & Summary

續 Day 12 今天的特別理論和抽象,所以懶得看就跳過吧! 系統模型和現實 (System Model and Reality) 很多演算法是被設計來解決...

鐵人賽 AI & Data DAY 8

技術 『Day8』 資料處理

在前一天跟大家分享了 Data pipeline 的種類,在每種 Data pipeline 當中多半都有資料處理的步驟。實際上在各種資料應用的場景,從資料分析...

技術 【Day 27】 做題庫小試身手 - 8

題目 題庫 Questions Q27 A company wants to implement real-time analytics capabil...

鐵人賽 AI & Data DAY 4

技術 [ Day 4 ] - Pyspark | 介紹 - DataFrame篇 - Select

21天可以養成一個好習慣, 但3天就可以放棄, 但我今天還是準時坐在這裡, 所以今天你的選擇是什麼呢?我們今天要來討論的是,選擇阿不是啦是select() 其實...

鐵人賽 AI & Data DAY 27

技術 『Day27』來幫 DAG 寫寫測試吧

在我們開發 weather_dag 之後,我們介紹了如何透過 View 以及警報來監控 DAG 執行的狀況。在開發之後其實還有一件非常重要的事,那就是測試,對於...