案例說明中,google有提供以下的建議:
(文章:ML Systems in the Real World: Guidelines)
(列表中會提供相近的本系列文章,希望可以快速搜尋相關資訊。)
讓第一個模型可以簡單化(Keep the first model simple):
這是為了讓我們驗證的管道可以簡單明瞭的驗證。(使用方式:可為【Day25】3rd:Fairness-評估偏差(evaluating for bias))
確認數據的管道是正確的(Focus on ensuring data pipeline correctness):
因為其中如果發生錯誤,我們很難追蹤到底是哪裡發生錯誤,可能會認為是數據錯誤、超參數錯誤等等,最後才找到原來是在中間發生錯誤。
使用簡單、易觀察的數據來訓練及評估結果(Use a simple, observable metric for training & evaluation):
先用一個簡單的數據資料來檢查,這個模型是否如預期,這樣的方式是個初步的驗證,不用等到處理複雜的數據後發現某個環節出問題,可以在初期就停止而進行修正。(可以參考實際案例:【Day28】4th:機器學習+現實世界-癌症預測)
擁有並觀察輸入的特徵(Own and monitor your input features):
為什麼要擁有呢?因為這樣可以確認我們輸入的資料是在可控制範圍內,並且觀察這輸入的資料是否如預期結果,沒有仔細監控輸入,當失控的時候會要花很多時間去找問題。(參考文章:【Day22】3rd:數據依賴關係(Data Dependencies))
對待模型參數視為程式碼:要檢查他(Treat your model configuration as code: review it, check it in):
就好像程式碼有code review一樣,我們的模型參數資料也要讓夥伴們檢查,是否有問題。(參考文章:【Day23】3rd:公平(Fairness))
記錄所有的實驗結果,也包含錯誤結果(Write down the results of all experiments, especially "failures"):
因為在後續的調整,就需要實驗結果。而且有時候要驗證我們的參數或是數據集運用是否妥當,也需要這樣的資料(可看前一篇的案例說明)
睫毛之聲:(雜記)
今天看到這篇文章机器学习框架局势突变:TensorFlow 逐渐式微,PyTorch 横扫顶会,不禁想到這次系列課程(相關資料:https://xueqiu.com/3426965578/133880291)。
雖然TensorFlow仍然領先,但是現在已經是兩王爭鋒,未來會怎樣發展仍未知道。
慶幸有機會可以開始學機器學習,逐漸了解這個領域。在學習過程中發現,原來在TensorFlow下,其實程式碼沒有使用太多,花很多時間是在資料處理以及驗證,跟我想像的差很多。
雖然已經完成了本次挑戰,但是還有一部分的課程還沒有完成,如果有空的話,應該會補上!(前面幾次的都還沒有補完)
不過我已經敲門磚了!希望能持續學習!
在此宣告,本次挑戰完成!!
(如果翻譯或是字詞說明有誤,懇請告知)