iT邦幫忙

第 11 屆 iT 邦幫忙鐵人賽

DAY 3
0

將問題以三種不同的方式進行轉換。
首先,將其作為機器學習問題,預測內容,需要什麼數據。
其次,將其視為軟體問題。
預測期間問題的API是什麼?誰將使用該服務?他們今天怎麼樣?
最後,將其置於數據問題的框架中。收集,分析,預測和響應數據或預測的關鍵行動有哪些?
請記住,不同的輸入功能可能需要不同類型的操作。

例:製造業中的需求預測。
那麼,首先,我們將其作為一個機器學習問題,並詢問預測是什麼?
那麼,因為我們正在製造需求預測,所預測的是本月應該生產多少個小部件。
例如,如果您正在製作手機顯示器面板,那麼本月我們應該製造多少個4英寸屏幕或6英寸屏幕的手機顯示器面板?這就是預測的內容。
因此,當我們將其作為機器學習問題時,下一個問題是,我們需要哪些數據?
那麼,如果你想預測要製造的小部件的數量,我們需要什麼樣的數據呢?
那麼,我們需要有關銷售單位數量,上個月我們銷售的單位數量,我們前一個月銷售的單位數量等的歷史數據等等。
我們還需要知道它的售價,退回的單位數量,任何競爭對手產品的價格,以及使用小部件X的所有商品的單位數量。
所以,如果你正在製作手機顯示屏,無論使用哪種顯示面板,無論是我們的還是競爭對手,都會銷售多少款智能手機?
我們還需要其他數據,如經濟數據,客戶信心,利率,本月發生的事情,去年等等。

第二個框架是一個軟體問題。
該服務的API是什麼?那麼,API中的方法可以預測需求,它需要什麼?
輸入可能是小部件ID以及我們要對其進行此預測的月份,月份的默認值為當前月份。
請注意,在此API中,我們只詢問窗口小部件ID和時間。
我們並不是要求我們的機器學習模型需要的所有其他輔助數據。
我們並沒有要求最終用戶向我們提供上個月售出的智能手機數量。
這是我們必須自己收集的東西。
作為軟件問題的框架的下一部分是誰將使用該服務?
而且因為這是需求預測的事情,我們可能會認為用戶可能是產品經理,可能是物流經理等等。
他們今天怎麼樣?他們研究了電話銷售,整體經濟,貿易出版物的趨勢,並以某種方式做出決定。

第三個框架是一個數據問題。那麼我們需要收集哪些數據?
我們需要收集的東西,用於培訓所有數據,但是對於預測,我們需要收集除了我們可以期望最終用戶給我們的數據之外的所有數據。
那麼我們需要收集哪些數據?我們需要從公司本身收集經濟數據,競爭對手數據,行業數據和數據。
我們需要分析哪些數據?好吧,我們需要分析所有這些數據集,以便我們可以從這些數據中創建我們的專家正在查看的功能,
我們需要採用這些功能並將其用作模型的輸入。我們的反應是什麼?我們如何應對需求預測?
我們可以做出反應的一種方式可能是,如果我們預測需求會增加,我們會自動繼續向供應商發出訂單,以獲取他們提供給我們的更多信息。
所以反應可能是自動的。

將機器學習添加到應用程序的簡單方法是利用預先訓練的模型。這些都是現成的解決方案。您不需要構建自己的模型的案例。

現在,新的機器學習系統可以高精度地檢測汽車的型號。
它還可以顯示每個型號的估計價格範圍,並識別正在拍攝的汽車的哪個部分。
有了這個系統,汽車經銷商只需拖放一堆未分類的照片,然後檢查模型和零件是否正確分類。
那麼讓我們看看Aucnet網站是如何運作的。所以這裡是一個網站外觀的例子,你基本上可以繼續上傳汽車的圖像。
所以,在這一點上,我們上傳了一些我們拍攝的汽車照片。
而我們將要看到的是系統將採用所有這些圖像並對其進行編目。
它基本上可以找到哪些照片來自汽車的前部,這些汽車是汽車的側面等。
它還將識別汽車的品牌並將其用作輸入來評估這輛車的內容可能值得。

請注意這是多麼容易。而不是人類用戶必須上傳一大堆信息,在表單中鍵入一大堆信息。
他們現在正在做的就是上傳一堆照片,系統正在對它們進行編目,

使用TensorFlow在Google Cloud Platform上構建了一個自定義圖像模型,該圖像位於此圖像的左側。
但越來越多,你不必那樣做。 Google公開了使用我們自己的數據培訓機器學習服務的各種領域。
例如,如果要轉錄語音,則可以使用語音API,而不必收集音頻數據,訓練數據並使用它進行預測。
有許多這樣的預訓練模型。這種預先訓練的模型是通過機器學習取代用戶輸入的絕佳方式。

來越多的客戶不想訪問您的網站並點擊按鈕。他們不想給你發電子郵件。他們希望以交互方式與您交談。
要回答他們的問題和疑慮。手動,回答每個電話都無法擴展,
因此Gartner估計,在幾年內,我們將在會話界面上花費更多,甚至在移動應用上也是如此。
那麼這是指使用語音API,抄錄語音,然後嘗試理解它嗎?
不,我在這裡向您展示的是一個名為Dialogflow的高級會話代理工具。

這是一個非常對話的界面,從這些對話中,構建了一個JSON結構化消息,
它就是這個JSON消息,這個非常結構化的消息傳遞給應用程序的其餘部分,
其工作方式與以前相同,只是用戶輸入有不是來自客戶指向並通過網絡表單點擊他們的方式,而是來自對話界面。

ML Marketplace正朝著不斷提高的機器學習抽像水平邁進。 AUCNET建立了自己的定制模型來對汽車零件進行分類並估算價格。

使用視覺API在模因中查找文本,它使用光學字符識別。所以,這裡Giphy能夠“按原樣”使用視覺API來查找模因中的文本。
另一個例子是社交媒體公司使用視覺API來拒絕不適當的上傳。
這是使用API​​“按原樣”解決業務問題的另一個例子。
最後,在右側,是一個更高層次的抽象。例如,Uniqlo使用Dialogflow設計購物聊天機器人,他們可以使用Dialogflow創建全新的購物體驗。

在這個專業化中,我們將專注於構建定制機器模型。所以,我們將教你如何進行機器學習,我們將要使用的抽象級別將圍繞構建自定義模型。
但請注意,您將越來越多地將機器學習主要以API的形式納入您的應用程序。當然,有人必須為市場構建這些API,

我在日本,從酒店到谷歌辦公室。
我在一個名叫六本木的地鐵站,地圖告訴我,我在地鐵站的二號樓。
怎麼知道的?
無論它使用什麼數據源,Wi-Fi點,氣壓,典型的步行速度,很明顯這不是一套簡單的規則。
加上相關數據來訓練模型和相關數據,以保持模型保持新鮮。一旦掌握了數據,您現在將使用機器學習來迴避必須編寫邏輯。
這裡的地圖預計您可能想知道您是否在多層建築中。地圖還能預料到什麼?

我在會議之間瞥了一眼手機,注意到我正在接受推薦。
地圖現在連接我過去的歷史,我喜歡藝術,我喜歡博物館,我在日本,現在向我推薦。
這更是一個數據問題。機器學習是允許原始限制如何從A點到B點的原因,如何將其變為現在成為虛擬助手。
只有通過機器學習才能實現地圖服務的個性化。
因此,機器學習是指超越手寫規則。

你可能會認為機器學習是一種在中間做事的方法。能夠獲取您碰巧擁有的數據,並培訓機器學習模型。
但是,將機器學習視為一種在正確的方式上獲得各種事物的方法。
能夠為您的每個客戶個性化您的服務。

數據和很多。規則和模型實際上非常簡單。
因此,如果機器學習是火箭引擎,數據就是燃料。
當我們進入複雜模型和各種調整模型以獲得更好和更好性能的方法時,很容易忽視關鍵點。數據每次都獲勝。
因此,如果在更多數據和更複雜的模型之間進行選擇,請花費精力收集更多數據。
而且我的意思是收集的不僅僅是更多的數量,也包括更多的變化。
例如,假設您的數據包含這些分形。如果你放大了,你將看不到模式,你沒有足夠的數據。
所以你最終會堅持非常複雜的規則。但隨著您獲得越來越多的數據,希望您填寫域名,整體模式開始變得更加明顯。
因此ML策略首先是數據策略。

你如何開始機器學習?根據我們的經驗,我們已經看到典型的客戶旅程,即最有可能獲得成功的旅程,就是選擇您今天正在進行手動數據分析的用例。

有幾個原因可以讓您進行手動數據分析以進入機器學習。
第一,如果您正在進行手動數據分析,您可能已經掌握了數據,這是最難的部分。
收集數據通常是機器學習項目中最長和最難的部分,並且最有可能失敗。
所以,如果你已有數據,你的成功機會就會上升。所以這是基本上進行手動數據分析的一個原因。
第二個原因,即使您今天沒有數據,因此您的ML項目涉及首先收集和評級數據,評級意味著找到數據標籤,您希望通過手動分析階段。
原因是,如果您無法分析數據以獲得合理的決策輸入,那麼機器學習就沒有意義了。手動分析可幫助您快速失敗,嘗試新想法。
所以,不要跳過這個分析步驟。分析步驟通常會告訴您數據是否有洞察力。
您想要進行手動數據分析而不是跳過它的第三個原因是要建立一個良好的機器學習模型,您必須知道您的數據。
既然這是第一步,為什麼不經歷手動數據分析的過程呢?不要直接跳到ML。
第四個原因是ML是一個走向自動化和規模的旅程。
您正在自動化手動分析,因為您希望它可以擴展。

如果你不能做分析,你就不能做ML。因此,當我們向工程師說機器學習時,他們會繼續思考培訓。
但機器學習的真正效用來自於預測。那是你從中獲得價值的時候。

但機器學習的真正效用來自於預測。那是你從中獲得價值的時候。
因此,關鍵是你的模型必須處理流數據。您需要建立流數據複雜性。
如果你認為你可以通過批量處理每週做一些事情,猜猜是什麼?您的業務只會變得更快。
因此,機器學習產品失敗的一個常見原因是因為稱為訓練服務偏差的東西。這是您擁有處理歷史數據的特定係統的地方,以便您可以對其進行培訓。
也許,這是一個由數據科學團隊編寫的批處理系統。然後你有一個不同的系統需要在預測期間使用機器學習模型。
為這些預測提供服務的系統可能是由您的生產工程團隊編寫和維護的內容編寫的。也許,它是使用Web框架用Java編寫的。
問題在於,除非模型在訓練期間看到與用於觀察的完全相同的數據,否則模型預測將被取消。所
以這是一個被稱為訓練服務偏斜的問題。因此,問題是流處理的結果和批處理的結果必須相同。
因此,減少這種問題機會的一種方法是減少訓練服務偏差的可能性的一種方法是採用在訓練期間用於處理歷史數據的相同代碼,並在預測期間重複使用它。
但要實現這一點,您的數據管道必須同時處理批處理和流。這是Dataflow背後的關鍵洞察力。

因為在機器學習中,在訓練和預測中使用相同的系統是有幫助的。您關注的績效指標也會在培訓和預測之間發生變化。
在培訓期間,我們關心的關鍵性能方面是擴展到大量數據。經銷商培訓,如果你願意的話。
然而,在預測期間,關鍵性能方面是響應速度,高QPS。所以,這是TensorFlow背後的關鍵洞察力。

如果有一件事我希望你從這個模塊中拿走,那就是機器學習的神奇之處在於數量,而不是複雜性。
如果您正在構建許多機器學習模型,併計劃更多您可能永遠不會構建的模型,那麼您希望擁有一個快速失敗的環境。
這個想法是,如果你快速失敗,你就有了迭代的能力。這種實驗能力在機器學習領域至關重要。
因此,您希望快速失敗並進行迭代,以便您可以嘗試許多新想法,這樣可以獲得更多成功。

現在,當我說數據時,大多數人會立即想到結構化數據,就像數據庫中的數據一樣。
但90%的企業數據都是非結構化的。想想電子郵件,視頻片段,文本,報告,目錄,時裝拍攝,活動,新聞等。所有非結構化數據。
由於我們談到的預先訓練的模型,處理非結構化數據變得更加容易。因此,將ML管道視為處理非結構化數據的一種方式。
獲取非結構化數據,通過ML API傳遞它們,然後留下實體,地點,標籤,人物,您可以構建簡單ML模型的東西。
因此,您不必從非結構化數據開始,通過ML API處理非結構化數據,並將ML API的結果作為自定義ML模型的輸入。

因此,創造性地使用ML來滿足用戶意圖,以便讓用戶滿意。
讓機器學習擴展,個性化的能力為您提供了大量機會,創造性地使用ML並讓您的用戶滿意。
讓用戶滿意,期待他們的下一個需求。

現在可以用機器學習了。因此,您的企業可以從機器學習中受益,有三種方式,
一種是通過機器學習注入您的應用程序,簡化用戶輸入,適應用戶。
其次,使用機器學習來微調您的業務,簡化您的業務流程,甚至創造新的商業機會,
最後,使用機器學習來取悅您的用戶,預測他們的需求,並使用機器學習來創造性地滿足用戶的需求打算這樣做。

回想一下貴公司的現有應用程序。
關於如何用ML替換部分內容的頭腦風暴。 在此處考慮用戶界面元素。
想一想,用機器學習替換部分應用程序有什麼好處? 如果你想這樣做,你會收集哪些類型的數據?


上一篇
[Day 2] 什麼是 Machine Learning (上)
下一篇
[Day 4] Machine Learning 在商業應用上的發展層次
系列文
Machine Learning Study 30天學習筆記19

尚未有邦友留言

立即登入留言