接下來我們從訓練新模型開始,就這個部分其實也可從頁籤資料集
進入。
畫面上是讀取資料後的畫面,如果想換成別的csv,可以從「來源」那邊重新挑選檔案。
所以一個資料集,一次就只能使用一個檔案做訓練,cloud storage可以先放入許多不同的csv檔案,但提供給資料集的就只有一個。
可以選擇產生統計資料
,會需要一點時間才跑出來,但是能夠列出「遺失率」和「不重複值」的數量,可以根據這些資料選擇要不要處理這些欄位。
如果此時重新選擇資料來源,那麼看到的統計資料其實是上一次,需要手動重點產生統計資料
。
無論要不要選擇產生統計資料,都可以直接開始訓練模型。
因為我們在建立資料集的時候,就選擇「迴歸/分類」的類型,所以Objective就出現Regression和Classification可以兩個選項提供作選擇,我們要跑迴歸,所以選擇Regression。
預設值就使用AutoML
,最厲害的就是這個步驟了,只要課金花下去,挑模型選細節什麼的,Google自動幫你找到一個他所能提供最好的出來。
model名稱可以任意命名。
要告訴它「答案欄」是哪一個。
另外也提供挑選欄位,如果覺得不需要或者會干擾訓練的欄位,可以在這個步驟挑掉,不一定要全部使用。
最後指定消費上限。
注意一下,他這裡以node/hours 為單位,基本上可以簡單理解為以小時為單位,低消1小時。
然而並不會掐個一小時剛剛好之後立刻結束,看說明有些運行時間是免費的時數,根據過去經驗,我們跑了幾次大概都在2個小時上下的時間跑完,跑完後主動送mail到信箱。
可以在頁籤「模型」看到正在訓練的模型,以及訓練完的模型。