iT邦幫忙

2019 iT 邦幫忙鐵人賽

DAY 23
0
Cloud Native

Cloud Native Startups:一個簡單的垃圾分類器與計算平台系列 第 23

[Day 23] 智慧永續城市 (Azure Machine Learning Studio)

我們已經知道 Azure 有三個實質好處:不必購買昂貴的硬體 (硬件成本)、不必自行建設基礎配置 (人力成本、軟體體成本),同時也可以讓使用者快速地建立預測模型 (時間成本)。我記得 IBM、NVIDIA 都有推出 XXX_Studio 的東西,感覺很快很好用,一天就可以建出成果了。但安教授想問:Azure Machine Learning Studio 適合做「產品」快速建模嗎?還是只能做「體驗」機器學習而已?

關於 Experiment


因為我們的目標是「開發 ML 解決方案」,也就是真正要去解決實際世界問題的。AML Studio 左邊有個 "EXPERIMENT",是可以做真實世界再快速測試模型與算法的作用嗎?像是 "Data Input and Output" 中的 "Import Data",是真的可以持續反覆地去抓取外部世界的資料嗎?有何限制?可抓取的外部資料源如下:

  • Web (URL Reader)
  • Azure SQL Database
  • Azure Table
  • Hive Table
  • Windows Azure BLOB storage

其實 AML Studio 甚至說整個 Azure 的 UI/UX,做得很像 Wordpress 最近一兩年的後台風格,而 Wordpress 市占率如此之高、如此商業化,那麼長相相似一樣的 Azure 又何嘗不可呢?

關於 Samples


其實比較昂貴的大量儲存空間,如果雲端解決方案比較貴的話,那就在本地建一個即可,所以基本上還是要擁抱 Cloud Native 的思維。

Samples Visualization (Scatter Plots、Log Plots 等等)、Samples Statistics 也是另一個不需要花人力時間實作的環節,因為這都已經是固定的套路了,而且開放工具多而又多,等到進到客製化的時候,再用真正專業的套件上場開發即可。這方面第一手分析的獲取,應該在幾秒內完成。

上傳自己的資料集的時候,AML Studio 已經考慮到一個貼心的設計,當原始資料很大時,可將原檔案 ZIP 壓縮至 1/10 後上傳,到雲上再解壓縮,非常標準、貼心、漂亮的解法。大數據本來就應該不落地。在雲之間傳來傳去時,還有一個實務面要考慮,就是已經拿過來的資料就把它「Cache」,就不用每次啟動算法都要抓一次。真是貼心、又如此基本的設計。

開發與使用 ML 模型


以我們最常做的「線性迴歸模型」為案例,其流程如下:

  1. 整合資料集
  2. 訓練線性迴歸模型
  3. 將訓練過的模型,發佈到一個 Web Service
  4. 一個主控台應用程式,透過 Web Service 端點訪問、輸入參數,得到預測輸出值。

AML Studio 有一點做得很好,就是「Train Model」類別與「Model」類別分離了。也就是說,「Train Model」與「Model」可以各自發展而彼此不受影響,需要合作只要進行合成 (Composition) 即可。


上一篇
[Day 22] 智慧永續城市 (Windows Data Science Virtual Machine)
下一篇
[Day 24] 智慧永續城市 (Apache Spark and Azure Databricks)
系列文
Cloud Native Startups:一個簡單的垃圾分類器與計算平台30

尚未有邦友留言

立即登入留言