iT邦幫忙

2021 iThome 鐵人賽

DAY 9
0
AI & Data

Deep Learning 從零開始到放棄的 30 天 PyTorch 數字辨識模型系列 第 9

Day-08 比訓練更重要的事情,Dataset

  • 分享至 

  • xImage
  •  
  • 昨天我們提過我們的目標是成功分類一組資料,那...資料哪來啊 OAO?總不能每次我要練習之前,還要像之前 Regression 自己生一份資料出來吧?
  • 所以今天我們就要借用外面的開放式資料集,但...有哪些資料阿 OAO?

How to get Dataset

  • 我們做機器學習一定有一個目標,也就是我們希望解決某些問題,因此針對這個問題我們會有相對應的資料
  • 例如說,我們今天要進行氣象預測,或是天氣分類,就個問題就圍繞在天氣上,因此我們的資料一定就是跟天氣相關的資料,這就包含 溫度、濕度、日照、UV 等等這種東西,這種針對性的資料也就會是來自學術單位、研究機構等等部分,去做針對性地收集
  • 那如果今天是希望作練習呢?有哪些地方可以收集到很棒的公開性資料來做練習嗎?
  • 當然有,我們就後面慢慢介紹

Kaggle

  • Kaggle 是全世界公認最大的資料科學社群,全天候 24 小時都有來自世界各地的學術機構、公司行號等等在上面發布各種不同領域的資料科學懸賞單,也就是各式各樣高額獎金的競賽,因此會有很多學生、業界人士、各界領域的優秀人員在上面互相角逐、討論、分享,是一個非常棒的資料科學交流平台

    此資料參考 Yeh James Kaggle 介紹

  • 那 Kaggle 因為是全世界最大的一個資料科學社群,因此上面有大量公開的資料,因此如果想對某個領域做針對性的訓練練習,都可以這裡做資料的查詢使用
  • 只是使用這部分的資料會需要注意幾個問題,
    • 第一,Kaggle 上面的競賽大多比較困難(畢竟有點屬於解決方案懸賞),因此對於初學者而言,上面很多比賽不是那們適合的,而且資料集大多非常龐大,很不適合做為練習,但如果是有針對性的練習測試,上面的資料一定能滿足你的興趣
    • 第二,Kaggle 上面涉及公司的資料大多有保密問題,因此會有資料解讀上的困難,還是需要有相關領域針對性的學習才比較好入手
  • 所以如果是初學者,可以去找找看 Playground 或是 Getting Started 這類型的等級做出發,我們這次主題的數字辨識資料就是這等個等級的資料
  • 想更加瞭解可以參考 Yeh James Kaggle介紹

Sklearn

  • scikit-learn 是用於 Python 程式語言的自由軟體機器學習庫,他算是一個工具函式庫,裡面還整理了很多資料,就包含提供了一個 dataset 提供簡單的引入使用
  • scikit-learn 不只有提供 dataset ,還有資料前處理函式庫,模型函式庫等等,可以說是非常多元
  • 那我們明天 Logistic Regression 的實作就是利用 scikit-learn 提供的 Iris 資料集

Pytorch

  • Pytorch 本身也有收集練習用資料集給大家使用歐~後面也會直接使用給大家看~

本日小結

  • 今天簡單的介紹了如何去獲取資料集的方法,當然還有各式各樣的平台跟競賽正在提供不同種類的資料集給大家去做競賽和練習,大家可以自己稍微做搜尋就好
  • 一般實際應用端的部分,則會是需要自己去收集所需的資料,並進行整理規劃,來達到有效訓練的效果
  • 明天就來看看如何利用 Logistic Regression 來實作 Iris 資料分類吧~

上一篇
Day-07 Logistic Regression 介紹
下一篇
Day-09 Logistic Regression 實作(修正版)
系列文
Deep Learning 從零開始到放棄的 30 天 PyTorch 數字辨識模型31
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言