我們首先要用到的是一個叫做MNIST(Modified National Institute of Standards Technology database)的一個資料集,他是一個大型的手寫數字數據集(如下圖),在1998年時由紐約大學的Yann LeCun教授整理了許多人手寫了0到9的各種不同字跡所得到的數據集,當中包含了60000筆的訓練資料,10000筆的測試資料,而這些資料就是我們要用來訓練機器學習所邁出的第一步。
利用MNIST這個資料集我們不只可以練習機器學習以外,它的應用範圍相當廣闊,可以用來辨識手寫數字,例如支票、電話號碼、車牌號碼等等。
要怎麼在Python中載入MNIST呢?首先要透過我們之前學習過的Keras匯入,再利用load_data方法載入,如下:
from keras.datasets import mnist
(train_feature, train_label), \
(test_feature, test_label) = mnist.load_data()
第一行載入mnist
二到三行會將載入資料分別放進變數(train_feature, train_label)和(test_feature, test_label)中
成功的話會跳出下面這個
載入完就差不多可以開始進入主要程式了