iT邦幫忙

第 11 屆 iThome 鐵人賽

DAY 8
1

10個來自Google的機器學習Know-how

在使用機器學習為公司帶來轉型與創造更多價值的路上,除了關注技術層面,如資料處理流程、機器學習演算法以及模型部署之外,其實還有其他許多較為策略面的面向需多加考量,在這邊,Google分享了其基於過往建立了大量機器學習系統的經驗,所得出的10項我們在使用機器學習上應該極力避免的常見陷阱(見圖1),透過留意這些不該犯下的錯誤,我們將更有機會為個人,甚至是整個組織正確地使用機器學習創造更多正面影響力。

https://ithelp.ithome.com.tw/upload/images/20190924/20120261jkUzR6NjoR.png
圖1
Source: Coursera - How Google does Machine Learning

而從這些由Google分享出的組織Know-how上,我也在此分享兩個我較為有共鳴的項目。首先是第三點的認為資料已經處於可直接使用的狀態(Assume the data is ready for use)。在執行機器學習的工作時,有個須銘記在心的觀念**"Garbage In, Garbage Out"**,指的便是如果我們沒有在建立機器學習模型時使用能反映欲解決的問題、正確與高品質的資料,不管我們使用再複雜的特徵工程還是模型,都無法像變魔法一般地,化腐朽為有價值的洞見。因此,儘管計畫使用機器學習來解決商業問題的組織已開始進行資料收集的工作,還是要確保那些收集的資料是能對應到欲解決的問題的,且整體過程是持續穩健地運行,在將收集的資料取出後進行前處理的階段,也要確保是在考慮了資料發生問題背後的原因與商業情境後才進行適合的處理,以消弭扭曲資料的潛在風險。

而另外一個則是第六點的機器學習基於錯誤的目標進行優化(ML optimizing for the wrong thing),機器學習除了建模與預測的過程之外,還有一到重要的優化(Optimization)環節,在此步驟中,我們會不斷基於機器學習瞄準的指標(Metrics),比如說提高準確率或者降低抱怨比率等,嘗試各種可能來進行優化。而在我們優化時所關注的指標上,必須確保該指標是符合我們最終所要達成的商業目標的,否則,在我們花了大把時間針對錯誤的目標優化下,會造成模型與商業表現不一致的情形,無法帶來最終的效益。舉推薦系統為例,若我們只關注推薦系統在推薦上單純命中率,可能就會造成於模型訓練及驗證時發現表現很好,但是在實際部署並執行該推薦系統時,卻發現使用者滿意度與參與程度不高,甚至因此流失的情形,在此情況下,如果我們可以將多樣性、新奇度等層面一同考慮,或許就有機會建構出另使用者滿意度大增的模型。


上一篇
Day 7 - How Google does Machine Learning (6)
下一篇
Day 9 - How Google does Machine Learning (8)
系列文
Understanding and Applying Machine Learning with Google Cloud Platform30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言