iT邦幫忙

data engineer相關文章
共有 125 則文章
鐵人賽 AI & Data DAY 7

技術 『Day7』 Data pipeline 的種類

在建立Data pipeline 時我們常會碰到類似的場景。這邊帶大家了解一些常見的Data pipeline 類型,我們在開發Data pipeline 的時...

鐵人賽 AI & Data DAY 6

技術 [ Day 6 ] - Pyspark | 介紹 - DataFrame篇 - Sample

在資料處理的領域,除了前幾天說的那些overview之外,了解了整個宏觀的資料集,我們還是會需要深入去確認資料的樣態,當資料集有排序性的時候,使用show(),...

鐵人賽 AI & Data DAY 6

技術 『Day6』 Data pipeline 介紹

管線無所不在,雖然說日常生活中常常不會注意到其存在,但是卻對我們的生活影響非常大。舉例來說,在做裝潢時,就必須要把未來房屋的使用情景進行評估。並且需要針對屋主進...

鐵人賽 AI & Data DAY 5

技術 [ Day 5 ] - Pyspark | 介紹 - DataFrame篇 - Filter

過濾一些選擇,可以得到更好的資訊,或許也可以成為一個更好的人吧?就像你要找一個非常優秀的吹風機時,你也會在購物網站下一些特定的filter()讓你能夠更快速的選...

鐵人賽 AI & Data DAY 4

技術 [ Day 4 ] - Pyspark | 介紹 - DataFrame篇 - Select

21天可以養成一個好習慣, 但3天就可以放棄, 但我今天還是準時坐在這裡, 所以今天你的選擇是什麼呢?我們今天要來討論的是,選擇阿不是啦是select() 其實...

鐵人賽 AI & Data DAY 4

技術 『Day4』資料工程師所需之技能

作為資料工程師,或說是負責處理資料工程的角色,我們需要具備什麼能力呢?其實從過去到現在的資料工程師的角色,隨著應用的不同以及工具的演變,資料工程師的角色默默的在...

鐵人賽 AI & Data DAY 3

技術 [ Day 3 ] - Pyspark | 介紹 - DataFrame篇 - Data Overview

上一篇簡述了5個讀取資料的方法,是不是開始迫不及待的想要馬上開始進行Data的操作啦先別急先別急,在我們開始實際針對DataFrame 進行操作之前, 先來看看...

鐵人賽 AI & Data DAY 3

技術 『Day3』Data team 的組成以及資料工程師的角色

團隊的合作方式從古至今總是不斷的演變當中,雖然工程師的歷史並沒有很長,但是變化卻十分快速。就像是網站工程師一般,過去也沒有這麼細分為前端禍後端,常常每個人都是全...

鐵人賽 AI & Data DAY 2

技術 [ Day 2 ] - Pyspark | 介紹 - DataFrame篇 - Create DataFrame

啊,忽然不知不覺就是第二天挑戰了,但是腦子還是一片混亂, 所以我們還是就來簡單説説作為一個資料工程師,在胡搞瞎搞馬上要入手時,第一個該開始的地方Create(至...

鐵人賽 AI & Data DAY 2

技術 『Day 2』什麼是 Data Engineering

記得在學生時期,我因為對於學校的選課網站操作不太習慣,於是便自己寫了一個簡單的爬蟲程式,用來自動抓取課程資訊和教師評價。經整理後,我和朋友合作設計了一個使用者友...

鐵人賽 AI & Data DAY 1

技術 [ Day 1 ] - Pyspark | 介紹 - 什麼是Pyspark?

前言 1. What is Pyspark ? PySpark 顧名思義,也就是Python 的一個Spark Library,主要是利用Python語法結合S...

鐵人賽 AI & Data DAY 1

技術 『Day1』前言

哈囉大家好,今年又不小心衝動再一次報名了鐵人賽了!這次寫的主題和上次的主題有很大的轉變,主要是因為自己因緣際會下轉換了領域,進入了 Data Engineeri...

鐵人賽 AI & Data DAY 30

技術 Stream Processing (2) - Chande Data Capture

保持同步 資料工程師修煉之路走到現在,真的沒有一個系統能同足滿足資料儲存、查詢和邏輯處理,現實世界的應用程式都是由多個不同的系統組件搭建起來;舉例來說我們會使用...

鐵人賽 AI & Data DAY 30

技術 [Day 30] 資料產品開發實務 - 完結撒花!

終於撐完三十天啦啊啊啊啊!!!沒想到自己有一天也能完成這個壯舉(拭淚),真的太敬佩各路大神以及前輩了Orz,也非常感謝各位讀者的支持,不管是幫忙點擊、按讚、分享...

鐵人賽 AI & Data DAY 29

技術 [Day 29] 資料產品開發實務 - 自動貼標系統

「懶惰是進步的原動力」 科技的進步降低了許多事情的門檻,例如過去要會換牌檔才能開車,現在基本上就自排;過去要會打字才能用電腦傳訊息,現在除了打字還可以語音傳圖片...

鐵人賽 AI & Data DAY 29

技術 Stream Processing (1-2) - Acknowledgments & Partitioned Logs

續 Day 28 Acknowledgments and redelivery 老樣子,消費者任何時間都有可能故障,有可能發生 訊息代理 (message...

鐵人賽 AI & Data DAY 28

技術 [Day 28] 資料產品開發實務 - 非機器學習模型

模型當然也有純理論的介紹方法,但實務上是很難單談模型的,今天這篇會介紹過去常用、也滿泛用的不需要使用機器模型的分析手法以及對應的商業需求。 人口描述 (http...

鐵人賽 AI & Data DAY 28

技術 Stream Processing (1-1) - Transmitting Event Streams

Transmitting Event Streams 最後一個章節是 串流處理 (stream processing),Day 23 ~ Day 27 講的 批...

鐵人賽 AI & Data DAY 27

技術 [Day 27] 資料產品開發實務 - 加工資料 - ETL 開發流程

介紹一下一般開發 ETL 的流程。每隻 ETL 都可以看作是獨立的程式,有獨立的開發流程。但是不同的 ETL 程式又可以使用類似的系統或架構來幫助開發和管理。...

鐵人賽 AI & Data DAY 27

技術 Batch Processing (4) - Materialization of Intermediate State

Beyond MapReduce 儘管 MapReduce 在 2000 年以後很夯,但它畢竟是分散式系統中諸多程式框架中的其中一種,取決於數據量、數據結構和數...

鐵人賽 AI & Data DAY 26

技術 [Day 26] 資料產品開發實務 - 原始資料 - Event Tracking

前面說了那麼多理論,最後幾天來寫一下開發實務吧!今天要介紹的是怎麼收集 App 使用者行為資料。 Initiate 追蹤事件是需要成本的,這些成本包括開發、蒐集...

鐵人賽 AI & Data DAY 26

技術 Batch Processing (3-2) - MapReduce Map-Side Joins

[Day 26] Batch Processing (3-2) - MapReduce Map-Side Joins 續 Day 25 Map-Side J...

鐵人賽 AI & Data DAY 25

技術 [Day 25] 資料產品在評估階段的五個大坑

在評估階段有幾件面向需要注意 資料產品品質 資料產品品質是需要持續監控和評估的。不同層的資料產品有不同的品質指標,基本上很難一次到位,需要持續增加觀察的指標。例...

鐵人賽 AI & Data DAY 25

技術 Batch Processing (3-1) - MapReduce Reduce-Side Joins and Grouping

Reduce-Side Joins and Grouping 當 MapReuce Job 執行時,它會讀取所有的輸入資料,相較於資料庫來說等於 全表掃描 (f...

鐵人賽 AI & Data DAY 24

技術 [Day 24] 資料產品在部署階段的五個大坑

上線之後才是開始。 第一坑 開發和部署環境不一致 如果一開始開發和部署沒有「喬好」環境的話,那上線的過程可是會吃一番苦頭。例如搞不清楚環境有哪些套件,只好正式環...

鐵人賽 AI & Data DAY 24

技術 Batch Processing (2) - MapReduce Job Execution

MapReduce and Distributed Filesystems MapReduce 有點像 昨天 講的 Unix 工具,它通常不會修改到輸入檔案,除...

鐵人賽 AI & Data DAY 23

技術 [Day 23] 資料產品在設計與開發階段的五個大坑

過了需求訪談後,在設計和開發階段也有要注意的事項。 第一坑 資料不熟悉 當組織規模一大,設計資料產品的人可能需要從其他人的手伸認識資料,這種時候就會發生很多誤解...

鐵人賽 AI & Data DAY 23

技術 Batch Processing (1) - Batch Processing with Unix Tools

Batch Processing 從去年開始寫 本系列文 開始到現在,我們著墨的都是現代系統的樣子,你發送 request 或送一個查詢,然後系統回給你 res...

鐵人賽 AI & Data DAY 22

技術 [Day 22] 資料產品在需求訪談階段的五個大坑

最後幾天來回顧一下在過去開發資料產品時常見的坑與應對方式,不管是專案還是產品,首先當然要面對的難題就是需求訪談。 第一坑 完全沒有畫面 資料產品在需求訪談階段通...

鐵人賽 AI & Data DAY 22

技術 Consistency and Consensus (4-3) - Coordination Services & Summary

續 Day 21 協調服務 (Coordination Services) 像 Apache ZooKeeper 類型的專案通常會被描述為:"分散...