每當我們修改工作表或者儀表板的時候,Tableau Desktop 會立即進行運算以顯示出對應的視圖,這樣的即時顯示對我們資料分析來說是非常加分的。但是,若遇到資料集有百萬甚至上千萬筆資料,每一步修改所造成的運算量是非常可觀的,有可能每修改一個地方就需要等待數分鐘甚至更久的時間才能看到結果,對於時間寶貴的我們來說,這是一個急需被解決的問題。因此,這裡分享如何使用 Data Extract 來緩解這樣的問題。
Data Extract 能讓我們先從原本的資料集 (例如:資料庫) 中擷取資料放到 Tableau 自己的資料檔案 Hyper (.hyper
),Hyper 格式對大型資料集進行了優化,使 Tableau Desktop 可以透過快速資料引擎 (Fast Data Engine) 對存放於 Hyper 檔案中的資料集快速地進行查詢與分析處理,避免與資料集源頭直接連線。
在 Data Source 頁面的右上角,會看到 Connection 區域有 Live
與 Extract
,Live
指的是與資料源頭連線是即時的,所有的動作都是與資料源頭即時互動;而 Extract
就是我們所說的 Data Extract,會將資料集的資料先存一份到 Hyper 檔案中,之後的所有操作都是與 Hyper 檔案來做互動。這裡選擇 Extract
即可使用 Data Extract 的功能,若還需要進一步設定,可以點擊位於 Extract
右邊的 Edit
來做設定,通常會使用到的是 Extract Filters
,讓我們可以在資料源頭就先過濾掉不需要的資料
當我們離開 Data Source 頁面時 (例如:切換到其他工作表或儀表板),Tableau Desktop 會請我們選擇要存放 Hyper 檔案的路徑,成功儲存才能使用 Hyper 資料格式所帶來的種種好處
曾經遇過千萬筆的資料集,實作時是選擇 Live 與資料庫連線,導致每個步驟的修改都要等上一兩分鐘,後來向前輩請教才知道 Data Extract 的好處!分享這個好用的小秘訣給讀者。