[Day #7] Google 如何運用機器學習技術 [6]

第 11 屆 iThome 鐵人賽

DAY 7

Google Developers Machine Learning

ML Study Jam 30天初體驗系列第 7 篇

11th鐵人賽

HappyStorm

2019-09-22 17:17:08

1119 瀏覽

分享至

(廢文模式 on)
越來越像在寫故事而不是技術文了 0.0
(廢文模式 off)

本日文章

Introduction to specialization
What it means to be AI first
- ...
- Replacing heuristics
- It's all about data
- ...
- Pre-trained models
- The ML marketplace is evolving
- ...
How Google does ML
Inclusive ML
Python notebooks in the cloud
Summary

It's all about data

谷歌在這個小節以自家的搜尋引擎為例，點出機器學習問題與資料間的相依性：

對搜尋引擎而言，一開始直覺的想法可能是針對不同的狀況設計出不同的規則來對應，例如「尋找咖啡廳」的規則很明顯地並不會與「尋找玩具」相同。
要能把這樣的問題轉換成機器學習的問題，首先需要做的準備是：「如何收集合適的資料來讓問題能轉化成機器學習可以解決的任務」
而之所以需要這樣的準備，原因則是「機器學習的核心概念是將一堆的例子（樣本）轉化成資料背後所隱藏的知識，並將其使用在未來的預測當中」
谷歌舉了一個搜尋關鍵字為例：「離我近的咖啡（coffee near me）」
對於這個 query（在資訊領域中，一般將使用者所送出的搜尋要求稱為「query」），他所對應的「樣本 (examples)」以及「預測 (predictions)」各是什麼呢？
預測的結果應該是挺直覺的，也就是「某間咖啡廳」。但是要如何決定是「哪間咖啡廳」，就有非常多的選擇了，例如要近的不要遠的（近是多近？遠是多遠？）、要等級多高的？（怎樣的等級算是高？）諸如此類的條件族繁不及備載，因此，相比制定這麼龐雜的條件與規則，我們希望直接由使用者來告訴我們答案。
我們首先會按照某一種規則（在完全沒有資料的前提下，也只能先制定某種規則來使用，這邊以距離遠近為例）來提供服務。
而當開始有了充足的資料後，則會開始漸進式地捨棄原本的規則，改以機器學習的模型來應對。
特別要注意的是，一般來說，樣本等同於「具有標籤 (labels) 的資料」。在這個例子裡，輸入可以想像成是每一間咖啡店的距離，而標籤則是使用者喜不喜歡這樣的搜尋結果。
因此我們可能會搜集到例如以下的例子：
- 提供了一些「距離一公里的咖啡店 (inputs)」，使用者表示「太棒了，我願意走一公里去那間咖啡店 (labels)」
- 提供了幾間「距離三公里的咖啡店」，使用者表示「噢！我不喜歡那間三公里的咖啡店！」
- etc.
透過搜集了如此多的樣本，我們可能可以得到一個結論：「三公里的那間咖啡店對於使用者來說都太遠了，沒有人想去」
而這個結論也就因此成了模型會學習到的一項知識之一。
因此機器學習其實就是關於收集合適的資料 (appropriate data)，並且找出在有效學習與信任樣本間做一個平衡的選擇。

小結

這個小節內容雖偏短，不過透過舉了搜尋引擎的例子（相對來說是比較不好想像「輸入」與「標籤」的問題），來讓大家了解機器學習的資料本身需具備的條件（inputs vs labels）。最後並提到了機器學習其實是在學習與信任樣本中做取捨。筆者認為這其實是一個很好的說法，在現今的 IOT (物聯網) 與網際網路成長飛躍的時代，資料的取得相較於過往方便許多，但在數量如此龐大的資料中，哪些資料又是值得信任的呢？ 舉一般民眾在街上常碰到的街頭問卷為例，每個人所填寫的答案一定都是真正代表那個人的想法嗎？會不會有人刻意隱瞞呢？這樣的狀況又要如何面對呢？因此資料的清理與驗證，也是機器學習中非常重要的一環。但由於在這系列課程中，並沒有花太多篇幅討論資料正確性的問題，因此筆者也不多加贅述了，就煩請讀者們在自行上網谷歌吧～

(噢不明天要上班惹XD)