~今天要分享的是「探索式資料分析中的統計摘要資訊與整潔數據」~
探索式資料分析(Exploratory Data Analysis,縮寫為EDA)顧名思義就是我們想透過統計和視覺化圖形去了解這些數據的結構、趨勢和關聯性等資訊,透過EDA方法,可以幫助資料科學家深入了解數據並做出初步的數據總結,為後續的建模和分析做好準備。
在python中,我們可以透過max(), min(), median()等語法來獲得數值資料的最大值、最小值、中位數等資訊,不過有一個更簡單的語法可以直接獲得許多統計資訊,那就是describe(),使用這個語法可以直接獲得數據的個數、平均值、標準差、最小值、最大值、第一/第二/第三四分位數的資訊;至於類別資料的話,則使用value_counts()來得到每一個類別有多少數量的資訊。
當進行探索式資料分析時,我們會希望所呈現的數據結構是清晰且易於理解的,也就是所謂的整潔數據(Tidy Data)。
整潔數據最重要的原則是,每個表格是由每個變數形成的行以及每個觀察值所形成的列組成,絕對不會出現一個欄位有多個變數或是一個表格包含不同類型的觀察值的情況發生。
舉個例子來說,下圖是原始資料:
而整潔數據會像下圖這樣呈現: