最近接觸到 Airflow 這個工具,順便紀錄一下學習的過程,如果有錯誤歡迎留言指正
本文僅限於學術用途,各項參考網址皆有附上連結,若有觸犯版權請留言告知
一、設備簡述
- O.S.:Windows 11 專業版
- IDE:Pycharm 專業版
- Docker version:v4.10.0
- 虛擬環境:venv (受限於 airflow 必須使用 pip 進行安裝)
- Python version:3.10
二、建立虛擬環境以及撰寫 docker-compose.yaml
- 利用 Pycharm 建立一個虛擬環境,並且建立一個空的 docker-compose.yaml
- 前往 這個網址 複製 docker-coompose.yaml 的內容,並全部貼到專案中的 docker-compose.yaml 檔案
- 個人習慣是開一個新環境的同時會建立一份 .gitignore 檔案,可以參考 這個網址
三、建立目錄及 .env 檔
- 依照官方文件,需要建立三個空的目錄,分別為 dags、logs 以及 plugins
- 建立一個 .env 檔,並添加
AIRFLOW_UID=50000
進入檔案中
- 完成後的目錄結構圖
四、運行 docker-compose 指令
到這邊開始運行 docker-compose 指令來建立環境
- 於 docker-compose.yaml 同層目錄下運行
docker-compose up airflow-init
進行初始化
- 運行
docker-compose up -d
啟動 airflow,-d
表示運行於背景
- 於瀏覽器輸入
http://127.0.0.1:8080
,即可訪問 airflow 頁面
- 預設帳號密碼皆為 airflow
五、Airflow 成功登入畫面
六、和 Postgres 連線
使用官方文件提供的 docker-compose.yaml 進行安裝時,會自帶一個 postgres 資料庫環境,可以按照下面的步驟進行連線
- 點選 Admin 並點選 Connections
- 點選藍色加號
- 按照下圖填入參數
- 點選 Test 測試連線是否正常,若為正常,上方會出現綠色提示視窗
- 點選 Save 儲存連線資訊
七、參考網址
- Airflow 官方文件:https://airflow.apache.org/docs/apache-airflow/stable/start/docker.html