那要如何開始ML的第一步呢?從Google的經驗來看,一個成功的專案通常都是來自那些日常原本就已經有用人工在處理的任務,而且已經有累積一定量的資料,也就是說,你想解決一個問題,你自己一定要能夠要能瞭解資料內容,以及應該如果處理這些資料,如果你連資料特性都不清楚,當然也不可能會找到一個合適的ML模型來使用,進一步來說,你連資料內容都搞不清楚,那你也不可能知道這些資料可以解決的是什麼問題啊!ML並不是魔法,並沒有辦法憑空處理連你自己也搞不清楚的資料,所以如果想開始一個ML專案,最好的方法就是從自己熟悉的內容開始下手。
在應用ML模型時,有時候會遇到訓練-應用偏差 (Training-serving Skew) 的狀況,例如你已經收集了豐富的資料,並選擇了一個曾經在其他專案訓練得不錯的ML模型來應用,卻發現得到的結果不如預期的狀況,這其實蠻好理解的,除非你能這個ML模型的Input及Output類型都相符,否則就會造成偏差的狀況出現。
講師特別提到,能讓ML模型成功的因素是品質,而不是複雜度,一個太過於複雜的ML模型並不代表會產生比較好的結果,反而還可能因為太過複雜,導致適用的資料少很多。還有一個可以幫助產生高品質ML模型的方式,也就是盡量地去嘗試新的點子,如果失敗了也沒關係,越快失敗就代表你確認這個點子行不通,可以繼續往下一個點子前進,而且失敗所累積的經驗都是未來成功的養分。
另外,在前面已經提到很多次,要盡可能地收集資料,但這些所收集到的資料大部分都會是非結構化的資料,例如信件、報告、影片等,所以如果透過利用Google所提供的API來幫這些資料加上標籤,就能夠幫助你在未來建立自己的ML模型時更加快速。
現在就趕快來想想看,日常生活或工作上有那些情境好像是可以拿來試試看ML的,並開始動手收集資料吧!