上一篇在說 SQL,這篇來談談我分析時最常使用的 Python 吧
當時學 Python 到一個階段後才發現 R 語言,聽說是比較偏學術性的偏門分析語言,當時我想先把 Python 摸熟後再評估看看,現在回題看選擇 Python 是個蠻不錯的決定呢 ~
回來講 Python 吧,在分析時大部份使用的是 Pandas 套件,因為在處理結構化資料相當方便。而 Python Class 我使用的比較少,Function 倒是用的蠻多的,尤其在處理比較複雜一些的欄位轉化或是對於整個資料表做的處理我比較常用 Function。
來用 kaggle 上面公開的資料 Spotify Analysis Dataset 2025 玩看看好了 ~
這個資料集大致上長這個樣子 :
我想看看哪個年齡層區間的人是我們的訂戶,然後再以訂閱方式來進行觀查,也許可以看到那些目前用 free subscription_type 的人有我們的經營切入點,亦或是訂閱 Premium 的人也許是我們的行銷 target audience ~
這時候,我要先分年齡層區間,再 groupby,阿年齡層區間怎麼分?先把 age 篩選出 20 歲以下的人,用 index 的方式在新的欄位貼個標籤是 "<20",其他年齡層再以此類推的進行嗎?
這時候 SQL 的 CASE WHEN 很好用啊 ~ 但這個資料集是 .csv 而且我們如果資料處理的部份只想要用 Python 進行,讓 SQL query 時簡單化呢?
這時候,Function 就派上用場了 ~
再來就可以來 groupby 看看了 ~
mmm, 後續也許年齡區間粒度也許可以再細切一些,或是可以直接使用 age 欄位來可視化看看 ~
(不知道怎麼縮小 ithome blog 中插入的圖片大小啊 ~ google 跟 chatgpt 後也都沒找到合適的方法,請見諒這些大圖 ~