今天的筆記,Google 分享發展機器學習訣竅。現今機器學習的浪潮襲捲全球,每天都能接收到人工智慧新的發展消息。但 Google 團隊依他們發展及輔導的經驗,提醒大家不要一興奮就想要直接投入機器學習的專案。在課程中 Google 分享在發展機器學習技術時的一些潛在的陷阱。
不要認為訓練自己的ML模型演算法會比撰寫軟體更快,很有可能出乎你的想像。因為要建立一個優秀ML系統,你一樣需要充足的軟體基礎架構。而且要在數據收集,訓練方面增加很多額外的複雜性。
ML是由數據驅動的。沒有數據 ML 就完全英雄無用武之地。如果沒有收集到很好的數據,或者無法獲得優質的數據,那麼談論與期待能做出很棒的ML是沒有用的。
你可能想說,有數據阿。公司系統運行這麼多年,所以應該有累積大量的數據。但是這些數據可能是在資料庫部門裡,但是你並沒有看過或分析過這些數據的質量。收集乾淨數據所需的工作量可能會超過你的想像。要很小心謹慎阿。
不要想說有了機器學習的系統,就可以不用人參與。在實際佈署 ML 到生產的環境之中時,不要忘了讓人類加入在整個機器學習的循環中。要讓人去追踪與審查後續的數據品質,處理ML沒有處理很好的案例數據,並策劃將這些數據再投入到其機器學習的培訓輸入。
參考
coursera - Machine Learning with TensorFlow on Google Cloud Platform 專項課程
coursera - How Google does Machine Learning