[Day #12] Google 如何運用機器學習技術 [11]

第 11 屆 iThome 鐵人賽

DAY 12

Google Developers Machine Learning

ML Study Jam 30天初體驗系列第 12 篇

11th鐵人賽

HappyStorm

2019-09-27 22:30:30

1308 瀏覽

分享至

(廢文模式 on)
Day 12 繼續加油～
(廢文模式 off)

本日文章

Introduction to specialization
What it means to be AI first
How Google does ML
- Introduction
- ML Surprise
- The secret sauce
- ML and Business Process
- The Path to ML
- End of phases of deep dive
Inclusive ML
Python notebooks in the cloud
Summary

The secret sauce

谷歌要來分享機器學習的獨門醬汁啦～
讓我們繼續看下去～

谷歌表示他們真正想分享的是組織在使用機器學習的經驗，而之所以用比較技術性的內容開頭，則是因為這些建構系統或是訓練模型的過程是身為一個能有效使用機器學習的專業人士所必須經歷的過程。
幸運的是，這些技術性的內容多半都能在網路上找到相關的說明與教學，例如在 Coursera 上就有非常多相關的課程。因此真正珍貴的知識就是需要大量時間與資源不斷積累而成的經驗，也就是谷歌本身投入在機器學習的經驗。

接著谷歌談到無論是谷歌內部或是外部合作夥伴，剛開始想要嘗試機器學習的組織們多少都有些錯誤的期待。例如：

組織認為訓練一個機器學習模型會遠快於直接建構一個程式來解決問題。
機器學習模型耗時的部分不單純只是在建構模型的部分，整個機器學習的過程從最基本的資料收集到後續產品的應用生態系與基礎建設所需要的時間往往都需要耗費大量的資源及人力，而這個部分卻恰恰是機器學習要能夠成功的基石。
想使用機器學習，資料呢？還沒收集？還沒開始收集資料的問題，基本上已經能確定現階段無法使用機器學習，更遑論探討更複雜的模型與訓練技巧等技術細節。
若確實擁有數據，這些數據有被好好保存嗎？資料的品質有持續在維護嗎？還是只是放任資料流不斷地儲存進資料庫中？在谷歌的經驗來說，從來沒有一個外部合作夥伴高估收集資料與維護資料的難度，因為資料收集與清理的過程真的是充滿了各種苦痛。
接著就是所有參與機器學習的人們，隨著機器學習系統的擴大而逐漸成為組織的核心業務時，所有參與其中的人員在維運上或是開發上的資源也就成了組織的資源核心，也是組織能養家糊口的重要依靠。他們對於機器學習系統無法有效處理的狀況需要進行仔細分析，而後整理資料使其能再次成為模型的訓練資料並持續不斷地優化模型。
而若推出的產品的核心為機器學習算法，在產品推出之初，可以進行操作的數據內容相對稀少，這時就有賴使用者持續不斷地提供各種使用行為來豐富可用的資料。透過與使用者的交互反饋機制，則能有效地不斷優化推出的服務。
然而，若是使用者所提供的使用行為有誤，或甚至被有心人士利用而導向不良的使用行為，再加上模型是針對使用者的行為進行優化，這時就有可能有極大的風險使得模型被誘導，進而產生了不良的預測結果而使用戶接觸到不當的內容。
因此，要如何評斷使用者的行為與收集資料並持續優化模型等議題，都是在建構機器學習系統時所需要列入考量的範圍。