我們建立好了自己的 dataset,也建立好了運算資源,今天我們開始進入 Author 三劍客之一的 Designer。
大家還記得我們在第一天時討論的:Classic 版和新版 AML 的分別嗎?Classic 版最厲害的功能是完整的圖形化介面,讓你用拖拉的方式就可以做 Machine Learning 了。在現在新版的 AML 裡,也依然保留這項功能,就是在 Designer 裡面可以做到。
我們先點擊進去 Designer 可以看到已經有很多內建好的模組了。我們可以點進去打開這些內建的模組做學習。舉例來說,我們今天要做的是鐵達尼號的存活預測,這是一個二元分類的題目,不是死就是活,那麼我們就可以找二元分類相關的 Design 來做學習。不過我們還是要 hardcore 一些,就從頭開始來建立一個
接著我們可以看到左邊的選單,稱為 asset library,這裡有很多微軟已經內建好的模組給你使用。你只要點擊並拖曳到中間的 canvas,就可以開始建立你的流程。
我們首先先選 Dataset,把我們前幾天建立好的鐵達尼號拉進來,我們可以看到 canvas 就出現了我們 titanic 的方框。
資料拉進來後,我們要來選特定的欄位,踢掉不想要的欄位。這時候我們在 asset library 輸入 Select Columns
,就會出現 Select Columns in Dataset 的選項,我們把它拉進 Canvas。然後把上面的 titanic dataset 拉個箭頭到 Select Columns in Dataset 的方框。
接著我們選擇想要的 columns,點擊方框後右邊會跳出選單,選 select columns。一般來說都需要 Survived 這個必選,因為我們是要預測這個人是否還存活。剩下我選 Pclass, Sex, Age, SibSp, Parch, Ticket, Fare, Cabin, Embarked 這些欄位。
接著我們在 asset library 輸入 Clean Missing Data
,用它來清理資料。一樣把上一個方框拉箭頭到下一個方框。
接著在右邊的選單,點擊 Columns to be cleaned,這裡我選了 Age, Cabin, Embarked。
有一些遺失值補值的欄位可以選填,不過我們就讓他先維持原始值。
接著在右邊 asset library 輸入 Split Data
,我們用它來切分訓練和測試的資料。注意 Clean Missing Data
的方框,要用左邊的點點連接到 Split Data
,左邊的點點才是已經清理完的資料。
一樣點擊 Split Data
的方框,會有一些數值可以設定,一般至少會去調整資料的比例,我們這邊就先設預設值就好了。
在右邊 asset library 輸入 filter based feature selection
,拖曳到 Canvas 中,用 Split Data
左邊的點點連接到它。這個方框主要是告訴 AI 你要訓練的是哪個欄位,我們今天要知道鐵達尼號上誰活了下來,所以在 target column 裡選 Survived 那個欄位。
在右邊 asset library 輸入 train model
,拖曳到 Canvas 中,用 filter based feature selection
左邊的點點連接到它。 Train model 的右邊方框,在 Label Column 選擇 Survivde。
在右邊 asset library 輸入 two-class boosted decision tree
,拖曳到 Canvas 中,並連接到 train model
上面的左邊點點。我們決定用這個演算法是因為只有死和活兩種結果,大家也可以看看 asset 裡有什麼其他的算法可以使用。右邊選單我們就選保持原始值。
在右邊 asset library 輸入 score model
,拖曳到 Canvas 中,train model
連接到它左邊的點,然後我們之前分割的另一組資料集,連接到它右邊的點,用以為模型打分。
在右邊 asset library 輸入 evaluate model
,拖曳到 Canvas 中,score model
連接到它左邊的點。
從資料匯入到資料清洗到訓練模型再到評估模型,這下子我們就完成了一個簡單的訓練啦!現在圖中就是我們一個完整的 pipeline,按下右上角的 submit 吧!
接著我們選擇 Create New,建立一個新的 Experiment 並取名字,然後在 Run description 裡輸入這一次要跑的資訊。這裡我們先有個觀念,Experiment 是 Run 的集合。然後按下 Submit,就開始訓練模型囉!這時候先去泡杯茶休息一下,需要等待一段時間。
等到全部都出現綠字的 complete 之後,可以在 Evaluate model
方框按右鍵,看 Evaluate result。
它連 Confusion Matrix 的相關資料都幫你畫好了,真的很貼心。果然沒有用力調整模型,訓練出來的結果就是會比較差 XDD。
不知不覺今天又破千字了,明天我們再來談談怎麼用 Designer 部署訓練好的模型。
13.在右邊 asset library 輸入 train model,拖曳到 Canvas 中,用 filter based feature selection 左邊的點點連接到它。 Train model 的右邊方框,在 Label Column 選擇 Survivde。
※ Survivde 應為 Survived