iT邦幫忙

第 11 屆 iT 邦幫忙鐵人賽

DAY 7
0
Google Developers Machine Learning

ML Study Jam 30天初體驗系列 第 7

[Day #7] Google 如何運用機器學習技術 [6]

(廢文模式 on)
越來越像在寫故事而不是技術文了 0.0
(廢文模式 off)


本日文章

  1. Introduction to specialization
  2. What it means to be AI first
    • ...
    • Replacing heuristics
    • It's all about data
    • ...
    • Pre-trained models
    • The ML marketplace is evolving
    • ...
  3. How Google does ML
  4. Inclusive ML
  5. Python notebooks in the cloud
  6. Summary

It's all about data

谷歌在這個小節以自家的搜尋引擎為例,點出機器學習問題與資料間的相依性:

  • 對搜尋引擎而言,一開始直覺的想法可能是針對不同的狀況設計出不同的規則來對應,例如「尋找咖啡廳」的規則很明顯地並不會與「尋找玩具」相同。
  • 要能把這樣的問題轉換成機器學習的問題,首先需要做的準備是:「如何收集合適的資料來讓問題能轉化成機器學習可以解決的任務
  • 而之所以需要這樣的準備,原因則是「機器學習的核心概念是將一堆的例子(樣本)轉化成資料背後所隱藏的知識,並將其使用在未來的預測當中
  • 谷歌舉了一個搜尋關鍵字為例:「離我近的咖啡(coffee near me)」
  • 對於這個 query(在資訊領域中,一般將使用者所送出的搜尋要求稱為「query」),他所對應的「樣本 (examples)」以及「預測 (predictions)」各是什麼呢?
  • 預測的結果應該是挺直覺的,也就是「某間咖啡廳」。但是要如何決定是「哪間咖啡廳」,就有非常多的選擇了,例如要近的不要遠的(近是多近?遠是多遠?)、要等級多高的?(怎樣的等級算是高?)諸如此類的條件族繁不及備載,因此,相比制定這麼龐雜的條件與規則,我們希望直接由使用者來告訴我們答案。
  • 我們首先會按照某一種規則(在完全沒有資料的前提下,也只能先制定某種規則來使用,這邊以距離遠近為例)來提供服務。
  • 而當開始有了充足的資料後,則會開始漸進式地捨棄原本的規則,改以機器學習的模型來應對。
  • 特別要注意的是,一般來說,樣本等同於「具有標籤 (labels) 的資料」。在這個例子裡,輸入可以想像成是每一間咖啡店的距離,而標籤則是使用者喜不喜歡這樣的搜尋結果
  • 因此我們可能會搜集到例如以下的例子:
    • 提供了一些「距離一公里的咖啡店 (inputs)」,使用者表示「太棒了,我願意走一公里去那間咖啡店 (labels)」
    • 提供了幾間「距離三公里的咖啡店」,使用者表示「噢!我不喜歡那間三公里的咖啡店!」
    • etc.
  • 透過搜集了如此多的樣本,我們可能可以得到一個結論:「三公里的那間咖啡店對於使用者來說都太遠了,沒有人想去」
  • 而這個結論也就因此成了模型會學習到的一項知識之一。
  • 因此機器學習其實就是關於收集合適的資料 (appropriate data),並且找出在有效學習信任樣本間做一個平衡的選擇。

小結

這個小節內容雖偏短,不過透過舉了搜尋引擎的例子(相對來說是比較不好想像「輸入」與「標籤」的問題),來讓大家了解機器學習的資料本身需具備的條件(inputs vs labels)。最後並提到了機器學習其實是在學習與信任樣本中做取捨。筆者認為這其實是一個很好的說法,在現今的 IOT (物聯網) 與網際網路成長飛躍的時代,資料的取得相較於過往方便許多,但在數量如此龐大的資料中,哪些資料又是值得信任的呢? 舉一般民眾在街上常碰到的街頭問卷為例,每個人所填寫的答案一定都是真正代表那個人的想法嗎?會不會有人刻意隱瞞呢?這樣的狀況又要如何面對呢?因此資料的清理與驗證,也是機器學習中非常重要的一環。但由於在這系列課程中,並沒有花太多篇幅討論資料正確性的問題,因此筆者也不多加贅述了,就煩請讀者們在自行上網谷歌吧~

(噢不明天要上班惹XD)


上一篇
[Day #6] Google 如何運用機器學習技術 [5]
下一篇
[Day #8] Google 如何運用機器學習技術 [7]
系列文
ML Study Jam 30天初體驗13

尚未有邦友留言

立即登入留言