鳶尾花這個數據集共有150筆資料,共有三種類別,每一個類別有50筆資料,共150筆。每一筆資料都有4筆特徵,分別為:
(1) 萼片長度
(2) 萼片寬度
(3) 花瓣長度
(4) 花瓣寬度
資料集來源:https://archive.ics.uci.edu/ml/datasets/iris
整理過的資料集來源:https://drphototw.wixsite.com/wujl/teaching-2019f
接下來要把資料load進PHP,Sample跟Label的形式如下:
Sample = [[萼片長度, 萼片寬度, 花瓣長度, 花瓣寬度], .....]
label = [[ Iris Setosa],......]
計算各特徵的的最大值與最小值,並且套入標準化公式:
x'= (x-min)/(max - min)
標準化可以讓每一種特徵的權重較為一致,以免有些數值太大,權重太重的問題發生,在使用演算法時都要特別注意標準化這個程序。