這篇主要依照Udemy課程 “2022 Python Data Analysis & Visualization Masterclass”、Kyran Dale所著之《資料視覺化:使用Python與JavaScript》與網路教學〈Python: Pandas DataFrame的簡單製作方法〉,學習Python 與Pandas。
一般來說,常見的資料與資料集(Data Set)分有以下幾種: JSON、CSV、Excel以及SQL。如果我們要找適合的Data Set,有兩種推薦的管道: Kaggle和data.world,後者中有一個很適合初學者學習的群體,名為 “Back 2 Viz Basics”,是很多Tableau使用者喜愛的社群。而在Udemy課程 “2022 Python Data Analysis & Visualization Masterclass”中,若要使用Python來分析資料與處理資料視覺化,他們推薦使用Pandas。
DataFrame是使用Pandas中,不可缺少的要素。我們將許多雜亂的資料,分別用欄、列彙整後,變成清楚可讀的DataFrame。舉例來說,我們常看到的資料原本樣子如下:
Name, age, gender
0. Alice, 33, female / 1. Joe, 23, female/ 2. John, 45, male/ 3.Lily, 32, female。
雖然有些資料的樣子,不會非常雜亂,但是DataFrame可讓人能清楚易讀:
(見圖一)
圖一: DataFrame的三大元素。(筆者繪製,使用工具: Excel與小畫家)
我們在工作的過程中,碰到較雜亂的資料時,常常會以手動key資料進Excel的方式處理。然而,如果用Python建立DataFrame,便會輕鬆很多。
首先,我們進到Jupyter的頁面。之後在Jupyter中,開啟新的Python Notebook。之後,我們使用dict語法來建立DataFrame。
輸入:
df_dict = pd.DataFrame({
'Name': ['Alice', 'Joe','John','Lily'],
'age': [33,23,45,32],
'gender': ['female','female','male','female']
})
print(df_dict)
之後便可以看到以下內容: (見圖二)
圖二: 透過dict語法建立DataFrame。
如此便建立好DataFrame了。
我們也可以使用Pandas來建立DataFrame,而且完整度非常高。
首先,我們在Jupyter中輸入import pandas as pd。接著輸入以下語法:
Data1 ={'Name':['Alice','Joe','John','Lily'],
'age':[33,23,45,32],
'gender':['female','female','male','female'],}
pd.DataFrame(Data1)
輸入完成後,可看到以下結果:
圖三:透過Pandas建立DataFrame成果。
最後再與原本使用Excel的內容相互確認,正確無誤的話,美觀又具圖表視覺化感的DataFrame完成了!
【備註】有關本篇文章所參考的網路教學文〈Python: Pandas DataFrame的簡單製作方法〉,可詳參以下連結內容:
https://cyublog.com/articles/python-zh/pandas-dataframe-create/