iT邦幫忙

2023 iThome 鐵人賽

DAY 6
0
AI & Data

打造數據科學之路:資料分析與機器學習的完整指南系列 第 6

鐵人賽第六天~探索式資料分析

  • 分享至 

  • xImage
  •  

~今天要分享的是「探索式資料分析中的統計摘要資訊與整潔數據」~

探索式資料分析(Exploratory Data Analysis,縮寫為EDA)顧名思義就是我們想透過統計和視覺化圖形去了解這些數據的結構、趨勢和關聯性等資訊,透過EDA方法,可以幫助資料科學家深入了解數據並做出初步的數據總結,為後續的建模和分析做好準備。

在python中,我們可以透過max(), min(), median()等語法來獲得數值資料的最大值、最小值、中位數等資訊,不過有一個更簡單的語法可以直接獲得許多統計資訊,那就是describe(),使用這個語法可以直接獲得數據的個數、平均值、標準差、最小值、最大值、第一/第二/第三四分位數的資訊;至於類別資料的話,則使用value_counts()來得到每一個類別有多少數量的資訊。

當進行探索式資料分析時,我們會希望所呈現的數據結構是清晰且易於理解的,也就是所謂的整潔數據(Tidy Data)。
整潔數據最重要的原則是,每個表格是由每個變數形成的行以及每個觀察值所形成的列組成,絕對不會出現一個欄位有多個變數或是一個表格包含不同類型的觀察值的情況發生。
舉個例子來說,下圖是原始資料:
https://ithelp.ithome.com.tw/upload/images/20230921/20163290FGgiiSZ7Cy.png

而整潔數據會像下圖這樣呈現:
https://ithelp.ithome.com.tw/upload/images/20230921/20163290SNqzRd4J71.png


上一篇
鐵人賽第五天~ETL(擷取、轉換、載入)
下一篇
鐵人賽第七天~索引值及排序
系列文
打造數據科學之路:資料分析與機器學習的完整指南30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言