Day-08 比訓練更重要的事情，Dataset

2021 iThome 鐵人賽

DAY 9

AI & Data

13th鐵人賽

3241 瀏覽

How to get Dataset

我們做機器學習一定有一個目標，也就是我們希望解決某些問題，因此針對這個問題我們會有相對應的資料
例如說，我們今天要進行氣象預測，或是天氣分類，就個問題就圍繞在天氣上，因此我們的資料一定就是跟天氣相關的資料，這就包含 溫度、濕度、日照、UV 等等這種東西，這種針對性的資料也就會是來自學術單位、研究機構等等部分，去做針對性地收集
那如果今天是希望作練習呢?有哪些地方可以收集到很棒的公開性資料來做練習嗎?
當然有，我們就後面慢慢介紹

Kaggle 是全世界公認最大的資料科學社群，全天候 24 小時都有來自世界各地的學術機構、公司行號等等在上面發布各種不同領域的資料科學懸賞單，也就是各式各樣高額獎金的競賽，因此會有很多學生、業界人士、各界領域的優秀人員在上面互相角逐、討論、分享，是一個非常棒的資料科學交流平台

此資料參考 Yeh James Kaggle 介紹
那 Kaggle 因為是全世界最大的一個資料科學社群，因此上面有大量公開的資料，因此如果想對某個領域做針對性的訓練練習，都可以這裡做資料的查詢使用
只是使用這部分的資料會需要注意幾個問題，
- 第一，Kaggle 上面的競賽大多比較困難（畢竟有點屬於解決方案懸賞），因此對於初學者而言，上面很多比賽不是那們適合的，而且資料集大多非常龐大，很不適合做為練習，但如果是有針對性的練習測試，上面的資料一定能滿足你的興趣
- 第二，Kaggle 上面涉及公司的資料大多有保密問題，因此會有資料解讀上的困難，還是需要有相關領域針對性的學習才比較好入手
所以如果是初學者，可以去找找看 Playground 或是 Getting Started 這類型的等級做出發，我們這次主題的數字辨識資料就是這等個等級的資料
想更加瞭解可以參考 Yeh James Kaggle介紹

scikit-learn 是用於 Python 程式語言的自由軟體機器學習庫，他算是一個工具函式庫，裡面還整理了很多資料，就包含提供了一個 dataset 提供簡單的引入使用
scikit-learn 不只有提供 dataset ，還有資料前處理函式庫，模型函式庫等等，可以說是非常多元
那我們明天 Logistic Regression 的實作就是利用 scikit-learn 提供的 Iris 資料集