iT邦幫忙

airflow相關文章
共有 90 則文章
鐵人賽 AI/ ML & Data DAY 17

技術 DAY 17 排程跟文件說的不一樣!談解耦 Airflow 與 dbt

我們盡可能地把 Airflow 的開發與 dbt 的工作流程做更清楚的隔離。 我們組織的需求大概就是日更、週更、月更的資料流,原先我們使用 BigQuery 時...

鐵人賽 AI/ ML & Data DAY 16

技術 《資料與程式碼的交鋒》Day 16 - 軟體工程篇總回顧

30 天挑戰就這樣默默過了一半呢!在第二階段,我們把資料工程中重要的排程設計,透過軟體工程的角度切入探討。 在過去的六篇文章中,我們探討了如何將程式碼模組化、工...

鐵人賽 AI/ ML & Data DAY 16

技術 DAY 16 排程跟文件說的不一樣!談 dbt 與 Airflow 的協作方法

dbt 的模型,如何用 airflow 來做任務排程工作? dbt 官方有提供文件說明: Airflow + dbt Cloud Install the db...

鐵人賽 AI/ ML & Data DAY 15

技術 《資料與程式碼的交鋒》Day 15-用 Docker 運行 Airflow

我們延續 Day 14 提到的例子:從 Google Maps API 獲取資料,清理轉換後寫入 BigQuery 裡。資料處理的過程中需要運用以下套件:...

鐵人賽 AI/ ML & Data DAY 13

技術 《資料與程式碼的交鋒》Day 13 -可重現性

『如果可以,我想和你回到那天相遇』(韋禮安,2021) 「與當時查出來的資料面貌再次相遇」在資料的世界,可能嗎?這和軟體工程,又有什麼牽連? 為什麼需要重...

鐵人賽 AI/ ML & Data DAY 12

技術 《資料與程式碼的交鋒》Day 12-任務相依性設計

『如果工作流程很複雜,任務的相依性很高,Airflow 還是能實現嗎?』 圖/一個 DAG 完成 RFM 分析。簡書廷製。 我們以 Day 06 提到的...

鐵人賽 AI/ ML & Data DAY 11

技術 《資料與程式碼的交鋒》Day 11 -工作流程編排工具 Airflow

延續昨天的話題,我想要每天午夜完成一次從 Google Maps API 取得資料 ⮕ 計算各地點的評分 ⮕ 將結果寫入 CSV 這樣的動作,可以透過 Cro...

鐵人賽 DevOps DAY 5

技術 【Day 5】Airflow 連接 AWS S3 - S3Hook

前言 接續昨天的透過 IAM 取得 token 之後,今天就要來 create S3 Bucket,接著使用 Airflow 的 S3Hook 來存取 AWS...

鐵人賽 DevOps DAY 17

技術 【Day 17】用 Astronomer Cosmos 結合 dbt 和 Airflow - 再戰 Jaffle Shop

前言 今天要用最簡單的架構完成 Jaffle Shop 的 PoC(Proof of Concept,概念驗證),主要目的是讓大家能在自己的本機成功運行 Jaf...

鐵人賽 DevOps DAY 16

技術 【Day 16】用 Astronomer Cosmos 結合 dbt 和 Airflow - 專案結構與環境

ㄧ、前言 今天會介紹一下整體專案的結構和環境,接著看下去吧 二、專案結構 {cosmos project} ├── dags │   └── demo_dag....

鐵人賽 DevOps DAY 7

技術 【Day 7】Airflow 用 Slack 傳送通知 - Webhook 設定與建議

前言 昨天是用基本的 Slack API 來設定,但很多時候我們可能會需要透過 Webhook URL 來滿足更彈性的寄送需求,例如在 EC2 上執行完備份的通...

鐵人賽 DevOps DAY 4

技術 【Day 4】Airflow 連接 AWS S3 - 介紹與 IAM 設定

前言 接下來幾天,會說明 Airflow 一些額外功能,包含 S3 連接方式、Custom XCom 解決 task 之間的資料傳遞、Slack 通知設定,主要...

鐵人賽 DevOps DAY 1

技術 【Day 1】前言

在報名截止最後一天加入了,跟去年結語提到的一樣: 雖然這一次累的半死,但明年還是會默默報名吧~明年我會準備好再參賽的~16th鐵人賽見~ from 台灣人必做...

鐵人賽 AI & Data DAY 30

技術 『Day30』Data pipeline 優化以及結語

今天就是鐵人賽最後一天了,回想過去的一個月裡真的做了很多的事情,感謝鐵人賽能讓我的生活變得更豐富(爆炸?)以及充實。透過這次的鐵人賽也讓我有機會能夠整理關於 D...

鐵人賽 AI & Data DAY 29

技術 『Day29』DAG 程式碼設計優化方向

不知不覺已經來到鐵人賽最後兩天了,加油!在讀本篇文章的讀者們,非常感謝你們一路的支持!在本系列的初期,我們有介紹到 Airflow 的設計概念,其中一個很重要的...

鐵人賽 AI & Data DAY 28

技術 『Day28』部署 DAG

在我們開發完成 DAG 之後,通常並非一次性就結束了,隨著時間過去,需求有持續不斷的改變,而我們的程式也必須持續的修改以及優化。有一個良好的開發流程以及 CI/...

鐵人賽 AI & Data DAY 27

技術 『Day27』來幫 DAG 寫寫測試吧

在我們開發 weather_dag 之後,我們介紹了如何透過 View 以及警報來監控 DAG 執行的狀況。在開發之後其實還有一件非常重要的事,那就是測試,對於...

鐵人賽 AI & Data DAY 26

技術 『Day26』加入警報讓 Airflow 主動通知

上一篇跟大家分享了 Airflow 功能強大的各種 View。而這篇要來跟大家分享警報的實作方法。不同於 View 是開發者以及維運人員需要主動進行查看,警報則...

鐵人賽 AI & Data DAY 25

技術 『Day25』使用 View 來監控執行狀況

在前兩天中,我們開發了天氣資訊的 DAG,我們知道在軟體工程的實踐中,開發只是一個部分,開發完成之後,後續的維運、監控以及持續的修正也是非常的重要。Airflo...

鐵人賽 AI & Data DAY 24

技術 『Day24』來做個天氣資訊 DAG 吧 (下)

昨天我們建立了天氣資訊 DAG 的基本架構和流程。今天我們來繼續實作細部的 Task 工作。首先我們從 Extract Function 進行實作。 實作 Ex...

鐵人賽 AI & Data DAY 23

技術 『Day23』來做個天氣資訊 DAG 吧 (上)

還記得我們第一次寫的 first_dag 嗎?當時只是基本的寫了一個 DAG 的雛形,在經過這幾天更了解 DAG 各個元件之後,大家是不是覺得躍躍欲試呢,相信大...

鐵人賽 AI & Data DAY 22

技術 『Day22』Operator 介紹

在對於外部的連結之後,我們再細部介紹一下 Operator 的使用,其實在 Operator 層級也可以有不同的使用方法。Operator 本身有多種種類,其作...

鐵人賽 AI & Data DAY 21

技術 『Day21』使用 Conn、Hook 進行外部連接

到目前為止我們了解,DAG 如何建立,如何設定關聯關係,如何傳遞變數。而在Data pipeline 當中還有很重要的一個部分是與外部系統溝通。 Airflow...

鐵人賽 AI & Data DAY 27

技術 [Day27] Amazon AWS EC2 免費部署 Airflow (1)

Create AWS EC2 step1: 點擊進入 EC2 step2: 點擊 lanuch instance step3: 設定 EC2 名稱 我這邊是...

鐵人賽 AI & Data DAY 23

技術 [Day23] Airflow牙起來-Debug 和 Testing (2)

前言 昨天有用 airflow dags test 和 airflow tasks test 測試執行,今天要試著用 pytest 模組來 testing ,...

鐵人賽 AI & Data DAY 22

技術 [Day22] Airflow牙起來-Debug 和 Testing (1)

前言 知道為什麼標題會叫做「牙起來」嗎?真的開發就會知道了Airflow 的 debug 和 testing 都是比較麻煩的,會越用越抓狂,這兩天會整理我的方式...

鐵人賽 AI & Data DAY 21

技術 [Day21] 坐上 Airflow 時光機回到過去-Catchup 和 Backfill

今日練習程式 import pendulum from datetime import datetime import requests from airflo...

鐵人賽 AI & Data DAY 20

技術 [Day20] Airflow Scheduler 排程爬坑筆記(下)

Airflow 時間變數的地雷區 Before 地雷 start_date ⮕ DAG 開始的日期,必要參數 end_date ⮕ DAG 停止的日期,不必要...

鐵人賽 AI & Data DAY 19

技術 [Day19] Airflow Scheduler 排程爬坑筆記(上)

Before 爬坑 Today Practice 今天繼續使用昨天的安裝模組的 code,簡單好用~ import requests from datetime...

鐵人賽 AI & Data DAY 18

技術 [day18] 急!在線等!求解20 點!Airflow 安裝 Python 模組

安安~在嗎~各位大大~什麼!這種梗透露年齡了嗎~該不會大家都千禧年之後出生的吧~趕快開始今天的內容吧~ Before Install Library 建立測試...