iT邦幫忙

2022 iThome 鐵人賽

DAY 19
0
AI & Data

學習筆記: 以Python和資料視覺化工具完成簡易資料視覺化(Data Visualization)系列 第 19

Day 19: Kaggle資料集(Datasets) 、實用的開放平台與公開資料集

  • 分享至 

  • xImage
  •  

       在之前的鐵人賽文章中,筆者曾經使用Kaggle網站上的資料集,但尚未具體介紹Kaggle網站。今日筆者將會先介紹Kaggle網站內容,並分享一些筆者覺得很實用的資料開放平台。我們在練習資料視覺化時,很苦惱的問題之一,應該是找不到資料和資料集。有時在網路上東找西找,也不知道適不適合下載。Kaggle便提供了很好的環境跟豐富的資料,讓大家來使用。
       如果有在處理數據分析的人,相信對Kaggle這個網站並不陌生。如果說寫程式的人常用Leetcode提升自己寫code的能力,那麼數據分析者會選擇Kaggle作為練習跟打比賽的平台。因此可以想見,Kaggle對於學習數據分析者的地位。當然,許多寫程式的人,也會使用Kaggle,因為Kaggle上的許多挑戰題,都需要使用程式來解決。

       首先,我們先進到Kaggle的官網。(網址: https://www.kaggle.com/) 註冊完成後,可以看到首頁的地方,有分主頁、Competitions、Datasets、Code、Discussions等頁面。(見圖一)
https://ithelp.ithome.com.tw/upload/images/20221004/20151873MfZt7OJJfb.png
圖一: Kaggle首頁

如果是初學者的話,可以在Kaggle網站的「Learn」上所提供的課程,一步一步地完成學習。但因為我們想要找的是資料集,所以我們直接點擊首頁的「Datasets」。點擊後會發現裡面有很多資料集,最上層是「Trending Datasets」,中間是「Popular Datasets」,其餘部分則是各項類型的資料集。筆者比較常會看「Popular Datasets」,或是用網頁上方的搜尋,來找尋自己要的Datasets。若點搜尋頁下方的標籤「Data Visualization」,便可看到許多適合資料視覺化的資料集。我們以「Unemployment dataset」為例,點擊後會在右上方看到「download」。點擊後便能下載dataset。(見圖二)

https://ithelp.ithome.com.tw/upload/images/20221004/20151873ZMbdivhK0g.png
圖二: Unemployment dataset下載頁面。黃色圈起處為可以下載datasets的地方。擷取自: https://www.kaggle.com/datasets/pantanjali/unemployment-dataset
據筆者所知,每個主題的datasets的檔案格式不定,但滿多檔案是csv格式,很適合處理資料視覺化者使用。

其他的資料開放平台上,筆者很喜歡使用的如下:

  1. 政府資料開放平台: 資料集列表 (網址: https://data.gov.tw/datasets/search?p=1&size=10&s=dataset_view_times_desc)
  2. World Bank Open Data (網址: https://data.worldbank.org/)
  3. Azure 開放資料集 (網址: https://learn.microsoft.com/zh-tw/azure/open-datasets/dataset-catalog)
  4. data. World (網址: https://data.world/datasets/open-data)
  5. Google Dataset Search (網址: https://datasetsearch.research.google.com/
    輸入關鍵詞後,可以找到各種資料集)

希望接下來的鐵人賽文章中,筆者能繼續順利以上述的資料集,完成資料視覺化製作。


上一篇
Day 18: Power BI與柱形圖
下一篇
Day 20: 使用Power BI建立簡易儀表板(上): 設計原則
系列文
學習筆記: 以Python和資料視覺化工具完成簡易資料視覺化(Data Visualization)30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言