iT邦幫忙

data engineer相關文章
共有 125 則文章
鐵人賽 AI & Data DAY 30

技術 『Day30』Data pipeline 優化以及結語

今天就是鐵人賽最後一天了,回想過去的一個月裡真的做了很多的事情,感謝鐵人賽能讓我的生活變得更豐富(爆炸?)以及充實。透過這次的鐵人賽也讓我有機會能夠整理關於 D...

鐵人賽 AI & Data DAY 29

技術 『Day29』DAG 程式碼設計優化方向

不知不覺已經來到鐵人賽最後兩天了,加油!在讀本篇文章的讀者們,非常感謝你們一路的支持!在本系列的初期,我們有介紹到 Airflow 的設計概念,其中一個很重要的...

鐵人賽 AI & Data DAY 28

技術 『Day28』部署 DAG

在我們開發完成 DAG 之後,通常並非一次性就結束了,隨著時間過去,需求有持續不斷的改變,而我們的程式也必須持續的修改以及優化。有一個良好的開發流程以及 CI/...

鐵人賽 AI & Data DAY 27

技術 『Day27』來幫 DAG 寫寫測試吧

在我們開發 weather_dag 之後,我們介紹了如何透過 View 以及警報來監控 DAG 執行的狀況。在開發之後其實還有一件非常重要的事,那就是測試,對於...

鐵人賽 AI & Data DAY 26

技術 『Day26』加入警報讓 Airflow 主動通知

上一篇跟大家分享了 Airflow 功能強大的各種 View。而這篇要來跟大家分享警報的實作方法。不同於 View 是開發者以及維運人員需要主動進行查看,警報則...

鐵人賽 AI & Data DAY 25

技術 『Day25』使用 View 來監控執行狀況

在前兩天中,我們開發了天氣資訊的 DAG,我們知道在軟體工程的實踐中,開發只是一個部分,開發完成之後,後續的維運、監控以及持續的修正也是非常的重要。Airflo...

鐵人賽 AI & Data DAY 24

技術 『Day24』來做個天氣資訊 DAG 吧 (下)

昨天我們建立了天氣資訊 DAG 的基本架構和流程。今天我們來繼續實作細部的 Task 工作。首先我們從 Extract Function 進行實作。 實作 Ex...

鐵人賽 AI & Data DAY 24

技術 [Day 24] - 資料處理和特徵工程 🔢 (下) | Rust x Jupyter 資料工程 🦀

今日份 Ferris 今天 Ferris 要大展身手了! Rust REPL REPL(讀音:REH-ple)代表 Read-Eval-Print Loop,是...

鐵人賽 AI & Data DAY 23

技術 『Day23』來做個天氣資訊 DAG 吧 (上)

還記得我們第一次寫的 first_dag 嗎?當時只是基本的寫了一個 DAG 的雛形,在經過這幾天更了解 DAG 各個元件之後,大家是不是覺得躍躍欲試呢,相信大...

鐵人賽 AI & Data DAY 22

技術 『Day22』Operator 介紹

在對於外部的連結之後,我們再細部介紹一下 Operator 的使用,其實在 Operator 層級也可以有不同的使用方法。Operator 本身有多種種類,其作...

鐵人賽 AI & Data DAY 21

技術 『Day21』使用 Conn、Hook 進行外部連接

到目前為止我們了解,DAG 如何建立,如何設定關聯關係,如何傳遞變數。而在Data pipeline 當中還有很重要的一個部分是與外部系統溝通。 Airflow...

鐵人賽 AI & Data DAY 20

技術 『Day20』Variable 與 Template

在前兩天陸續介紹了 Airflow 如何進行參數傳遞的主題,以及 XCom 的設計及使用方法。今天接續著參數的話題來談談 Airflow Variable 及...

鐵人賽 AI & Data DAY 19

技術 『Day19』使用 XCom 進行 Task之間參數傳遞

昨天談到帶入參數執行 DAG,那如果我們那如果我們今天想要從Task 之間彼此傳遞參數呢?那就必須使用到 Airflow 中的 XCom的功能了 。今天我們就來...

鐵人賽 AI & Data DAY 18

技術 『Day18』帶入參數執行 DAG

在一開始學習程式的時候,覺得使用參數是件像是魔法一般的事。同樣類型的工作,編寫一次程式碼之後,就可以透過不同的參數產生不同的結果。如果有不同的維度的功能需要加入...

鐵人賽 AI & Data DAY 17

技術 『Day17』DAG 執行方式與排程

經過前幾天的介紹,相信大家應該都有一個基本的概念輪廓,知道如何透過 Airflow DAG 建立所需要的 Data pipeline了。今天來談談 DAG 如何...

鐵人賽 AI & Data DAY 16

技術 『Day16』Relationships 關聯關係

昨天說明了 DAG 以及 Task,今天我們繼續說明另一個很重要的 Airflow 元件 -- Relationships 關聯關係。 在我們做的第一個 DAG...

鐵人賽 AI & Data DAY 15

技術 『Day15』如何使用 DAG , Task

昨天晚成第一個 DAG 之後,是不是覺得有些成就感呢?不過相信也對其中許多概念仍然感覺霧煞煞吧,在今天我們會來說明一下 Airflow 的 DAG 以及 Tas...

鐵人賽 AI & Data DAY 14

技術 『Day14』第一個 Airflow Data Pipeline

安裝完環境之後,想必在讀本系列文章的你,對於開發 Data pipeline 必定是躍躍欲試!如果對 Airflow 有點熟悉的朋友,這幾天可以簡單瀏覽過或是當...

鐵人賽 AI & Data DAY 13

技術 『Day13』安裝 Airflow

剛開始學習程式的時候,對我來說最讓我感到挫折的就是環境安裝的問題。由於許多背景知識的不足,以及系統版本和程式版本非常的複雜,總是需要花上許多時間跟精力進行安裝及...

鐵人賽 AI & Data DAY 12
30天胡搞瞎搞學會pyspark 系列 第 12

技術 [ Day 12 ] - Pyspark | 清理 - 特殊資料型態篇 - Array : explode()

啊今天先來簡單介紹一下什麼事ArrayType()ArrayType()主要是將Array放入整個dataframe 中,然後Do Re Mi So你的Data...

鐵人賽 AI & Data DAY 12

技術 『Day12』Airflow DAG 介紹

今天也是在日本旅遊與鐵人競賽當中交錯,實在是十分有趣的經驗!今天看到日本許多有設計感的建築,覺得令人歎為觀止,我想除了設計的靈感之外,也需要強大的工程技術能力來...

鐵人賽 AI & Data DAY 11

技術 『Day11』Airflow 介紹

不瞞大家,這幾天其實我在日本旅遊當中,所以鐵人賽對我來說真的是很鍛鍊啊!每天有很多行程之外,結束後還是要抓緊時間寫文章,真的是極度瘋狂!但是這過程中卻也覺得十分...

鐵人賽 AI & Data DAY 10
30天胡搞瞎搞學會pyspark 系列 第 10

技術 [ Day 10 ] - Pyspark | 清理 - 字串篇-2.1 : 正規表示式科普( regular expression )

終於進入雙位數了我好感動,每日日更不存稿,讓我下定決心,以後要做這種奇奇怪怪的挑戰前,千萬要深思熟慮好好存稿,不然每天的內容都讓自己想哭好啦那還是來進入正題吧!...

鐵人賽 AI & Data DAY 10
30天胡搞瞎搞學會pyspark 系列 第 10

技術 [ Day 10 ] - Pyspark | 清理 - 字串篇-2.1 : 正規表示式科普( regular expression )

終於進入雙位數了我好感動,每日日更不存稿,讓我下定決心,以後要做這種奇奇怪怪的挑戰前,千萬要深思熟慮好好存稿,不然每天的內容都讓自己想哭好啦那還是來進入正題吧!...

鐵人賽 AI & Data DAY 10

技術 『Day10』 如何設計實作 Data pipeline

在前幾天的內容當中,我們陸續介紹了 Data pipeline、Data pipeline 的種類、資料處理,資料品質等主題,相信大家對於 Data pipel...

鐵人賽 AI & Data DAY 9

技術 [ Day 9 ] - Pyspark | 清理 - 字串篇-1 - 切切切 : split(), substr()

昨天講完了如何處理timestamp()的時間格式該如何處理,今天就讓我們來看看,最大宗的部分,字串!講到字串,最常使用的就是大名鼎鼎的split(),subs...

鐵人賽 AI & Data DAY 9

技術 『Day9』 資料品質

在上一篇當中我們常常談到資料的品質,因為在資料處理的其中一個目的就是我們要提升資料的品質。那我們要如何判斷資料的品質呢?這篇想要來聊聊資料品質,幫助大家在實作...

鐵人賽 AI & Data DAY 8

技術 [ Day 8 ] - Pyspark | 清理 - 時間篇 - 2 Timestamp 轉換 : User Defined Function 的出現

在多數情況下,使用to_timestamp(),幾乎可以解決掉所有的時間轉換問題,但Data Cleaning 是永遠不會讓你好過的,那這時候可以怎麼做呢?這時...

鐵人賽 AI & Data DAY 8

技術 『Day8』 資料處理

在前一天跟大家分享了 Data pipeline 的種類,在每種 Data pipeline 當中多半都有資料處理的步驟。實際上在各種資料應用的場景,從資料分析...

鐵人賽 AI & Data DAY 7

技術 [ Day 7 ] - Pyspark | 清理 - 時間篇 - 1 : Timestamp 轉換 : to_timestamp()

各種各樣的轉換,時間今天是星期五,應該是容許水一天的吧 1. to_timestamp(col,format) 基本上就是針對日期格式做相對應的轉換! 詳細情...