[Day 04]Google ML 1-2 It's all about data

第 11 屆 iThome 鐵人賽

DAY 4

Google Developers Machine Learning

Google Developers Machine Learning與一名平凡高二生的初心者體驗日記-遊走在成功與失敗之間的超級英雄系列第 4 篇

11th鐵人賽

SimbaZZ

2019-09-20 23:16:26

1145 瀏覽

分享至

前言

今天沒有前言，想到在補

1.It's all about data

這章節將帶入一些新的東西(廢話X
能夠帶來解決新問題的方式，看下圖：

上述圖中有甚麼?舊金山的日本玩具，kissimmee的活龍蝦
附近的素食甜甜圈和pasadena的蜂巢(不懂?

當我們在Google搜尋這些東西的時候，你可能認為這些搜索看起來沒什麼特別
事實上，問題可大了，這種搜索方式我們稱之為hard queries,local queries我指的是這個搜索的方式
意思是人們並不是在Google搜尋網站，而是在地圖上找商家，Google在前幾年看到這個問題，而且這些類型的搜索方式正逐漸普及，我們或許可以針對每個搜索目標編寫規則，好讓人們找到他們，不過相對的，這會讓你的機器變得"笨拙"

所以我們來看看機器學習ML會如何解決問題，看下圖：

好了，現在有個人搜尋了附近的咖啡店
這裡出現兩個選擇，Bill's dinner 或者是 Anna's Gourmet Cafe
試想ML會如何思考，讓最後的結果是最終的預測結果

前面提到ML的兩個階段，先是訓練在來是預測
要訓練就要先有資料，有資料才能針對問題提出預測那麼ML怎麼蒐集資料?
然後，所以，舉例來說，當你提出"附近的咖啡"時，哪些知識已經成為未來的預測了?.
我的意思是甚至是你的key word中，也是數據的一部分。
那未來的預測是甚麼?很簡單，未來的預測就是兩家咖啡店的其中一家。
所以問題又回到了根本，ML到底怎麼蒐集數據。。

嘿!聽著!!我這裡要告訴你一件重要的事情，記住。
ML背後的想法就是"蒐集一大堆例子，使這些例子變為知識並做未來的預測"，
所以回來，其實當你搜索附近的咖啡時，我們這樣想，

Bill's dinner有提供咖啡，而且只需3分鐘路程，
但是還有另一家咖啡店，只需2分鐘路程，
但是比起三明治，我們覺得您可能更喜歡咖啡店，
可是咖啡店必須過橋，我們可能送您餐廳，
可是如果餐廳低時至少要10分鐘以上才能上咖啡或者沒有外帶咖啡這個選項，
或者散步15分鐘是需要的。多遠算遠?餐廳評價等級多高?服務時間的快慢?這些有多重要??

當然，ML絕對不會將所有例子寫成一個一個規則，我指的就是if if if if if if if if
所以，我們希望，與其我們自己在這裡猜測
能讓用戶自己告訴我們，讓我們能夠用大量數據做權衡評估預測
B U T ！！！
我們仍然需要數據所以
一開始還是採用啟發式的方式等到數據資料充足後，我們就會拋棄啟發式的方式轉為大量數據權衡評估

我們需要的是更多的示例

所以我講很多遍了哈哈E
我們還是需要數據，但這次差別在我們或許只先考慮距離對上咖啡品質或是咖啡品質對上服務時間來討論客戶喜歡還是不喜歡兩種結果

從下圖很直觀的就可以看出
一開始客戶還願意去一公里的咖啡店喝咖啡
但是距離漸漸超過3公里時客戶甚至連咖啡都不喝了

聽起來沒錯吧你距離越遠就越沒有人想要去
ML學習越多的數據提出的答案會更接近最後的結果
越多的示例，越能在其中找到適當的平衡，精準預測

當然同時考量到變數越多時顧及模型全域範圍
並且適當收集數據最重要的事
如何在良好的學習和信任示例之間找到適合的平衡！

2-1 Framing an ML Problem

這個章節教的是，當面對真正的問題時如何應用ML在其中
ML轉換成實務上的運用，大概是這樣的一個思考方向

第一個框架關於如何應用在ML上

1.你正在預測什麼
2.你可能需要什麼樣的數據再來

第二個框架關於軟體和ML問題的協調

3.你可能需要哪些API來幫助整理你的數據
4.你的服務對像是誰他們今天如何

第三個框架關於收集數據

5.然後把這些問題放到數據問題的框架中收集資料分析數據預測並做相對應的結果

影片中還提到不同的輸入可能需要不同類型的操作
下面有兩張圖片可以試著思考看看哪些問題可以用ML來嘗試解決不管是在各行各業中。

2-2 Lab debrief

接續上一節的思考方向
假設今天你要生產一個電話的顯示面板首先決定你的預測的東西是什麼預測東西是你應該製造多少個是英吋和6英吋的面板接著 你需要什麼數據 這就牽扯到這個東西賣得好不好的問題了你可能需要他的商品販賣數據他賣出的多寡他的價錢包括客戶退貨的數據同樣的不只有我們一家公司在生產面板我們可能會有競爭對手那我們就需要更多數據等等

第二個部分我們要先搞清楚我們的服務對象是誰而且這是他們需求預測的事情所以我們假設我們的服務對象可能是產品經理物流經理他們可能研究電話銷售的趨勢整體的經濟貿易的出版物等等

第三部分是為數據我們為了進行預測 我們需要收集什麼數據 並且盡可能地用到所有的數據 我可能需要收集我們可能需要收集經濟的數據競爭對手的數據同行的數據公司本身的書局我們可能需要很多數據我們分析這些數據並從數據中得知哪些是需求取向我們把這些數據當作模型的輸入我們要做什麼反應今天你知道了市場的需求當然是搶先其他人搶先市場所以當預測結果出來的時候我們自動向供應商發出訂單我們就可以早一步取得先機所以這個整個過程很可能是自動化的 對吧

3.Demo: ML in applications

不知道前面有沒有說過我們使用機器學習一個簡單的方法是我們可以用別人預先訓練好的模型這樣就不用多花時間在訓練模型上面這邊有1個例子 Aucent 這家公司是日本最大的汽車拍賣服務在早期如果要拍賣車子你必須拍很多張照片然後經銷商還要比對你的汽車型號跟雜七雜八的東西非常繁瑣又複雜

對經銷商來說每天要處理好幾千張的照片非常耗時的事情但是現在利用機器學習系統只要將圖片上傳系統字型會分類圖片的類別自動檢測汽車的型號順便幫你估計出車子的售價範圍經銷商只需要確認系統是否正確分類大大提升了行政的效率

這是使用機器學習後效率他們自動比對車子的照片當你嘗試拍攝一台汽車的正確角度時他就會自動幫你比對最符合的答案而且第一名的準確率竟然高達96 % 相對於以往返數複雜的程序相對於往返數複雜的程序上傳一張照片來得簡單多了吧

4.Pre-trained models

上一節提到的 Aucent 使用左邊的開放式自定義模型訓練但是我們不一定要這麼做可以直接使用別人預先訓練好的模型比如說今天要製作一個語音辨識的模型我們可以直接使用speech API 不需要再自己錄製音頻對其進行訓練並預測這是一個快速又簡單的入手方法

再來是 Ocado 他是一個網路最大的線上雜貨店以往客戶寄email到這裡都是有人工一封一封慢慢讀取後來使用了NLP 自然語言處理他自動讀取信封裡面的文字甚至可以得知實體的情感透過這樣的一個方式幫助他們標籤信封的優先級

是越來越多的客戶他們不想寫信他們比較想實際交談所以這次我們需要使用語音API嗎不不不不不他們使用的方法是一個更高端更前衛的技術他們使用Google的對話代理工具名叫 dialogflow 透過對話介面的方式其實就像平常看到的自動回覆機器人一樣他甚至能跟你直接對談從中汲取出所要的資訊達到一樣的效果而且更有效率

5.The ML marketplace is evolving

這個章節主要在說明機器學習正在往更好水平發展
aucnet從頭開始建構了 ML模型
Ocado 使用自然語言API 等他並不是從頭開始他是使用別人做好的模型去創造新的東西
Giphy 使用vision API和OCR也是直接從高層次開始
最後的Uniqlo使用更高層次的Dialogflog開發

這裡要說的是我們並不需要從頭開發一個API 可以直接使用前人事先訓練好的這是沒有問題的
這裡我想分享一下我的小小心得感覺這幾年隨著各種技術的成熟相對以往你可以不用這麼複雜就能完成某些事情
我指的是一個門檻的降低看看從以前的組合語言 C語言到現在的 Java python高階語言
這個開發者的門檻正在降低特別是scratch 通過拖拉幾個積木就能完成一個小小的程式那時候剛接觸到的我真的是蠻有興趣的成就感透過這個門檻的降低自然會有越來越多的人接觸到這個領域不管是開發工具的簡化也好還是開發者的免費教學也好是這個領域開始有越來越多的人參與在這種情況下其實想想入門的門檻再怎麼低他的本質還是不變就是如果你真的要了解真的要往這個領域發展哪些定理那些基本概念你還是要去了解這樣才能在廣大人海中脫穎而出不是嗎所以在之後的文章中我們還是會著重在機器學習理論當中後面應該會有機會可以實作同時也會一直複習前面的東西做好心理準備出發吧

參考資料

Google ML 課程

結語和一些小心得

今天第四天，我想做點小小的變化，是關於Google ML送的一個月課程到下禮拜一，但我還沒有做完所有測驗，還沒拿到證書，所以這三天我可能就會先專注在Google ML的課程部分，順便把影片下載下來以便重複觀看，待這幾天做完所有測驗拿到證書之後，我再把這幾天的文章接續完成，這樣說好像不是小小的變化是大大的變化了，但這幾天我還是會持續至少每日一更鐵人賽文章，文章的形式或許會像這樣說說心得，等我這幾天拿到證書後我會再認真把每一天的文章做大翻修，如果計畫順利的話預計下禮拜的這個時間前面的文章會完成更新，一切回到軌道上，那天應該是DAY 11吧，如果還有點吃緊會再慢慢補回來，只是給自己一點壓力盡力就好，所以總結文章還是會持續更新，只是這幾天更新速度會暫時放慢，但後面還是會補回來，並不影響DAY 30時看到前面有非專題文章，大致上是這樣，我不是休息，反而是要讓自己更加投入在課程學習當中，特別是假日時間要好好把握，希望是說，我投入大量時間在這地方，可能短時間內不一定能看到甚麼成就，但必定會影響我所選擇的這條路，這段旅程必須是值得的吧，先這樣，謝謝大家
編輯時間：(2019-09-19 23:59:26)
-(2019-09-20 23:16:26)更新
今日里程數－1216字感謝閱讀～
-(2019-09-26 22:55:06)
今日里程數－2083字感謝閱讀～
-(2019-10-02 05-54-50)
打了整個半夜我到底在幹嘛...
今日里程數－6403字感謝閱讀～