想要進行數據分析,必定對資料分析的4道工程有所觀念。
【資料分析的4道工程】
• 了解資料
將資料分門別類,掌握特徵,準備真正需要的資料,進行資料整形。
• 解讀資料
總計資料並視覺化,歸納資料的資訊。
• 分類資料
掌握資料並分類相似者和分類定性資料。
• 預測資料
根據資料進行預測,評估預測的優缺。
運用6種任意形式取得資料來源到Power BI後,依據資料分析的4道工程,進一步加工這些資料是必經之路,Power BI 提供"Power Query編輯器"來組織資料。
載入資料之前可從對話視窗右下「編輯」;載入後從[常用]功能區的[編輯查詢]可以叫出編輯視窗「編輯查詢器」,不過編輯器僅呈現編輯M語言的部分資料,預設不會從資料來源載入全部資料到編輯器。
【善用Power Query的紀錄步驟功能】
右下方「套用的步驟」是Power Query編輯器會將操作動作類似Office軟體內錄製巨集,讓我們可以隨時新增刪除既有步驟,且這些步驟會對應至M查詢語言,供日後重複使用。
「來源」步驟,意旨對M函數進行使用壓縮、序列化、反序列化、解析格式的資料操作,最終成為文字欄位表格。
Table.FromRows(Json.Document(Binary.Decompress(Binary.FromText(…))))
當我們在既有的資料進行「變更類型」步驟表示呼叫M語言函數 Table.TransformColumnTypes
,Power Query編輯器會請你確認是直接修改還是新增步驟。
【抓取多張表\多張表集中成一張】
假使以行政院\歷任政府首長網頁資訊做示範範例,欲收集的網頁表格不只一張。
https://www.ey.gov.tw/Page/19FF76FDB7181A53
利用Power Query可以產生兩種不同的結果。一種是複選想要的Table標籤,按下右下方的「載入」,此一作法進入至Power Query編輯器之後,會成為多個資料表,每一個Table對應一個獨立查詢。
另一種是希望合併在同一張資料表內,以利方便分析,在導覽器進入右下的「ˋ轉換資料」進入「Power Query編輯器」
在Power Query編輯器中,切換右下「套用的步驟」至"來源"
透過上方「資料編輯列」窗格可以直接見到精靈呼叫的函數,變更原本的M函數至套用Web.Page(Web.Contents(網址)),接下來刪除「套用的步驟」除"來源"以外的兩個。
Web.Page(Web.Contents(網址))
下一步,點選如上圖會出現一個名稱「Data」的資料行標列,右側有個左右箭頭的小圖示,點擊後會展開各筆資料紀錄,選取需要的資料。
接下來刪除多餘的欄與列,Power Query編輯器有個奇特的地方,它管理行與列的功能區名稱一個是「管理資料行」另一個是「縮減資料列」,icon與名稱有點不太直覺。這邊刪除多行的時候,可以利用長按Ctrl或Shift。
於是獲得如下資料形式。
補充說明一下另一個編輯頁面稱作「報表編輯器」