首先第一個要克服的是合併109和110年的資料。前面第3天有提及的技巧來進行資料整併,不過這次的資料來源不是網頁顯示資料,而是直接下載的兩份檔案,因此這次我們除了土法鍊鋼,另一個技巧是在Power Query編輯器中使用「合併」。
【合併Power BI裡的多張表到一起】
「合併查詢」即SQL中的「Join」語法,讓資料表中指定要合併的對象,選取「連結種類」和「連結資料行」然後回傳「結構化資料行」形式的結果。
這邊這次使用的是「附加查詢」,即SQL中的「union all」概念,作用在將選取的資料表附加組合。這裡點選[附加查詢]後,加入要附加的資料表,產生結果如下。
有資料,於是我們可以開始盡情瘋狂的資料研究了
[分析情境一:類別比較]
我們的疑問是:地方媽媽年紀分布與偏向出生的嬰兒性別?
為了瞭解地方媽媽比較子類別之間的數據,經常選用的視覺效果有:直(橫)條圖、群組直(橫)條圖。
使用「群組」或「堆疊」的視覺效果,適用在分析一組或是多組類別的資料使用,當「圖例」欄位沒有資料的時候,「群組」或「堆疊」的視覺效果會變成單純的「直條」或「橫條」圖。另一個小技巧是當類別標籤比較長,使用橫條有助顯示完整文字。
這次選用的是"群組直條圖"如圖結果。
X軸放置的是"地方媽媽的年紀分布"所以我們選取的資料是:生母年齡。
Y軸放置的是"嬰兒出生數"
圖例放置的是"嬰兒性別"
如果想要修改顯示具體數字,可以在旁邊更改設定。
於是,這兩年資料告訴我們,男嬰新生兒數量比較高。唯一女嬰數量高於男嬰的母親年齡是在50歲以上。嗯!所以想要有女兒的地方爸爸,可以考慮一下母親年齡~或許有機率(請勿認真)
[分析情境二:類別分布]
接下來我們的疑問是:109和110的爸爸,哪個年紀分布比較精力旺盛 多子多孫XD
除了子類別之間的數據比較,類別的另一種分析方式是觀察分布,即呈現"部分"和"整體"間的資料關係。而這裡有兩個角度,一個是以"部分"視作整體,另一個是"整體"就是"整體"。
換言之,以"部分"視作整體,就是使用百分比的方式。例如比較"未滿20歲",109和110的爸爸精力旺盛程度,把其中部分"未滿20歲"先視作整體,顯示百分比,其他像是60歲以上等等很多段年齡的部分比照辦理,這樣呈現的角度,即以"部分"視作整體。
另一個"整體"就是"整體"常見的表現方式就是圓餅圖,全部總計一個百分比。
這次選用的是"百分比堆疊直條圖",因為要讓109和110的地方爸爸進行PK,所以X軸放置的是"地方爸爸的年紀分布"所以我們選取的資料是:生父年齡。
Y軸放置的是"嬰兒出生數"
圖例放置的是"統計年度"
然後發現薑是老的辣(並不是,後來發現其實資料有偏差)。
於是我們突然想知道到底是不是越老的薑越有機會影響新生兒的性別。
接著我們換"百分比堆疊橫條圖"
X軸放置的是"地方爸爸的年紀分布"所以我們選取的資料是:生父年齡。
Y軸放置的是"嬰兒出生數"
圖例放置的是"嬰兒性別"
然後發現那些極端年齡的地方爸爸,才有比較顯著的性別變化。
所以如果是未滿20歲的地方爸爸有比較高的機率有女兒,那麼根據我們前一個分析情境一,
想要有女兒,可以試試未滿20歲的地方爸爸加上50歲以上的地方媽媽(勿認真*2)。