我們盡可能地把 Airflow 的開發與 dbt 的工作流程做更清楚的隔離。 我們組織的需求大概就是日更、週更、月更的資料流,原先我們使用 BigQuery 時...
30 天挑戰就這樣默默過了一半呢!在第二階段,我們把資料工程中重要的排程設計,透過軟體工程的角度切入探討。 在過去的六篇文章中,我們探討了如何將程式碼模組化、工...
dbt 的模型,如何用 airflow 來做任務排程工作? dbt 官方有提供文件說明: Airflow + dbt Cloud Install the db...
我們延續 Day 14 提到的例子:從 Google Maps API 獲取資料,清理轉換後寫入 BigQuery 裡。資料處理的過程中需要運用以下套件:...
『如果可以,我想和你回到那天相遇』(韋禮安,2021) 「與當時查出來的資料面貌再次相遇」在資料的世界,可能嗎?這和軟體工程,又有什麼牽連? 為什麼需要重...
『如果工作流程很複雜,任務的相依性很高,Airflow 還是能實現嗎?』 圖/一個 DAG 完成 RFM 分析。簡書廷製。 我們以 Day 06 提到的...
延續昨天的話題,我想要每天午夜完成一次從 Google Maps API 取得資料 ⮕ 計算各地點的評分 ⮕ 將結果寫入 CSV 這樣的動作,可以透過 Cro...
前言 接續昨天的透過 IAM 取得 token 之後,今天就要來 create S3 Bucket,接著使用 Airflow 的 S3Hook 來存取 AWS...
前言 今天要用最簡單的架構完成 Jaffle Shop 的 PoC(Proof of Concept,概念驗證),主要目的是讓大家能在自己的本機成功運行 Jaf...
ㄧ、前言 今天會介紹一下整體專案的結構和環境,接著看下去吧 二、專案結構 {cosmos project} ├── dags │ └── demo_dag....
前言 昨天是用基本的 Slack API 來設定,但很多時候我們可能會需要透過 Webhook URL 來滿足更彈性的寄送需求,例如在 EC2 上執行完備份的通...
前言 接下來幾天,會說明 Airflow 一些額外功能,包含 S3 連接方式、Custom XCom 解決 task 之間的資料傳遞、Slack 通知設定,主要...
在報名截止最後一天加入了,跟去年結語提到的一樣: 雖然這一次累的半死,但明年還是會默默報名吧~明年我會準備好再參賽的~16th鐵人賽見~ from 台灣人必做...
今天就是鐵人賽最後一天了,回想過去的一個月裡真的做了很多的事情,感謝鐵人賽能讓我的生活變得更豐富(爆炸?)以及充實。透過這次的鐵人賽也讓我有機會能夠整理關於 D...
不知不覺已經來到鐵人賽最後兩天了,加油!在讀本篇文章的讀者們,非常感謝你們一路的支持!在本系列的初期,我們有介紹到 Airflow 的設計概念,其中一個很重要的...
在我們開發完成 DAG 之後,通常並非一次性就結束了,隨著時間過去,需求有持續不斷的改變,而我們的程式也必須持續的修改以及優化。有一個良好的開發流程以及 CI/...
在我們開發 weather_dag 之後,我們介紹了如何透過 View 以及警報來監控 DAG 執行的狀況。在開發之後其實還有一件非常重要的事,那就是測試,對於...
上一篇跟大家分享了 Airflow 功能強大的各種 View。而這篇要來跟大家分享警報的實作方法。不同於 View 是開發者以及維運人員需要主動進行查看,警報則...
在前兩天中,我們開發了天氣資訊的 DAG,我們知道在軟體工程的實踐中,開發只是一個部分,開發完成之後,後續的維運、監控以及持續的修正也是非常的重要。Airflo...
昨天我們建立了天氣資訊 DAG 的基本架構和流程。今天我們來繼續實作細部的 Task 工作。首先我們從 Extract Function 進行實作。 實作 Ex...
還記得我們第一次寫的 first_dag 嗎?當時只是基本的寫了一個 DAG 的雛形,在經過這幾天更了解 DAG 各個元件之後,大家是不是覺得躍躍欲試呢,相信大...
在對於外部的連結之後,我們再細部介紹一下 Operator 的使用,其實在 Operator 層級也可以有不同的使用方法。Operator 本身有多種種類,其作...
到目前為止我們了解,DAG 如何建立,如何設定關聯關係,如何傳遞變數。而在Data pipeline 當中還有很重要的一個部分是與外部系統溝通。 Airflow...
Create AWS EC2 step1: 點擊進入 EC2 step2: 點擊 lanuch instance step3: 設定 EC2 名稱 我這邊是...
前言 昨天有用 airflow dags test 和 airflow tasks test 測試執行,今天要試著用 pytest 模組來 testing ,...
前言 知道為什麼標題會叫做「牙起來」嗎?真的開發就會知道了Airflow 的 debug 和 testing 都是比較麻煩的,會越用越抓狂,這兩天會整理我的方式...
今日練習程式 import pendulum from datetime import datetime import requests from airflo...
Airflow 時間變數的地雷區 Before 地雷 start_date ⮕ DAG 開始的日期,必要參數 end_date ⮕ DAG 停止的日期,不必要...
Before 爬坑 Today Practice 今天繼續使用昨天的安裝模組的 code,簡單好用~ import requests from datetime...
安安~在嗎~各位大大~什麼!這種梗透露年齡了嗎~該不會大家都千禧年之後出生的吧~趕快開始今天的內容吧~ Before Install Library 建立測試...