Vscode 是 Microsoft 旗下的 IDE (使用整合開發環境),如果你是數據分析師,那可以把 VSCode 想像成 jupyter notebook 或是 R studio。這裡使用 Vscode 的主要原因是他有個厲害的 extension: dbt Power User,在 dbt 的使用上相當方便。
請到這邊 下載並且安裝 VsCode。點下紅色圓圈處,就可以打開指令列 (也就終端機的部分)。
下載並安裝好 VSCode 後 應該會長這樣
點選完紅色部分應該會長這樣,並點選到 Terminal 的分頁。
Windows 使用者可以直接從 這裡 下載 python。
Mac 使用者可以從 這裡 下載 python,或是在 Vscode 的 Terminal 中 下載 python,
使用 Terminal 下載時,步驟如下:
/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"
按下 Enter 後可能會請你輸入電腦的密碼,再照螢幕上面的指示即可。
brew install python
python --version
確認是否安裝成功
GIT 是一個版本控制工具,透過分支切換,讓開發中的程式碼與已經開發的程式碼不會互相污染。比方說,我們今天可能在開發一個從 data source 到資料市集的 data pipeline。其中 dim_company
的邏輯已經開發完成了,上到正式環境,但是有新的 fct_order_item
需要開發,或是 dim_company
希望加入新的欄位,這時就會希望可以在開發中的環境編輯程式碼,避免污染到正式環境的 dim_company
。
想多深入 git 可以到這個網站了解。
Windows 安裝 git 請到 這個網站,點選 standalone installer 64bit。
Mac 可以透過安裝 xcode command line tools 安裝,請在 Terminal 輸入:
xcode-select --install
當然也可以利用其他方式安裝,請參考 git 網站
安裝後,同樣可以在 Terminal 輸入 git --version
確認有沒有安裝成功。
英文不錯的讀者,可以直接到 dbt 的官網參考他們的文件,寫得很詳細。
先在 terminal 輸入 python -m venv dbt-env
創建一個名為 dbt-env 的虛擬環境。
接著輸入以下指令進到虛擬環境中
Mac:source dbt-env/bin/activate
Windows:dbt-env\Scripts\activate
這時候應該會看到 dbt-env 顯示在某些地方,就代表我們的終端機現在處在虛擬環境中。(讀者看到在自己終端機看到的顯示方式可能會跟我的有所不同。)之後每一次開發 dbt 專案時,都要先輸入上面的指令,才能開始使用 dbt 這個工具。
也可以看到某個資料夾叫做 dbt-env
之後便可以開始安裝 dbt,請在 terminal 輸入下面指令安裝 dbt 以及 對應資料庫的 adapter,至於支援哪些資料庫呢,請參考這邊 以及 這邊
例如,使用的是 postgres,請安裝:pip install dbt dbt-postgres
如果使用的是 bigquery,請安裝:pip install dbt dbt-bigquery
等等,再根據自己使用的資料庫做調整。
安裝後,可以在 Terminal 輸入 dbt --version
確認有沒有安裝成功。
請到 vscode 左側的佇列點選 Extension,並在上方搜尋欄輸入 dbt power user 點選安裝。
之後請到左下角的 settings 設定 dbt power user
請在 text editor 的 file 新增這個項目,如下圖所示
之後在搜尋欄輸入 python interpreter,並將圖中的 info visibility 改成 always
目前工具安裝都已經告一個段落,接下來就會開始建立專案,使用 dbt。