在建立機器學習的模型之前,我們要先找到可以用的資料集。
畢竟要做機器學習,總要先有資料吧?如果有些人是為了跑手上的資料才學機器學習倒還好,但是很多人學機器學習的時候手上可沒有資料。
這可怎麼辦?總不能把學校所有人叫出來量身高體重吧?
公開數據庫的定義很廣泛,只要是提供公開數據的網站都算。因為許多在分析資料、做機器學習的人本身沒有資料,所以會從這些網站找資料來做使用。
有些函式庫本身就有內建的數據庫可以直接做讀取使用,像我們之前學過的sklearn就包含了許多資料集。
這是在初學機器學習時非常常用到的資料集,當初我在學的時候也是用這個資料集XD
這邊來介紹一下鳶尾花卉數據集(Iris data set):
可以看到,在這個資料集中,涵蓋了數值、類別型資料,而且還有三個屬種可以做比較分析。
導入鳶尾花數據集:
# 先載入需要的函式庫
from sklearn.datasets import load_iris
# 將數據及導入、放倒iris這個容器中
iris = load_iris()
資料導入的過程很簡單吧?之後我們簡單實作機器學習時,就會用到這個資料集哦!
今天的內容比較短,但應該還蠻實用的。
雖然之後不一定會用到網路上的公開數據集(比如kaggle、UCT),但這些網站中提供的許多數據集都挺有趣的,會讓看到的人有想玩玩看他們之間到底有什麼關係的衝動,所以大家有空的時候可以上去看看!