[Day 23] 智慧永續城市 (Azure Machine Learning Studio)

2019鐵人賽

萊恩

2018-10-23 23:50:00

1217 瀏覽

分享至

我們已經知道 Azure 有三個實質好處：不必購買昂貴的硬體 (硬件成本)、不必自行建設基礎配置 (人力成本、軟體體成本)，同時也可以讓使用者快速地建立預測模型 (時間成本)。我記得 IBM、NVIDIA 都有推出 XXX_Studio 的東西，感覺很快很好用，一天就可以建出成果了。但安教授想問：Azure Machine Learning Studio 適合做「產品」快速建模嗎？還是只能做「體驗」機器學習而已？

關於 Experiment

因為我們的目標是「開發 ML 解決方案」，也就是真正要去解決實際世界問題的。AML Studio 左邊有個 "EXPERIMENT"，是可以做真實世界再快速測試模型與算法的作用嗎？像是 "Data Input and Output" 中的 "Import Data"，是真的可以持續反覆地去抓取外部世界的資料嗎？有何限制？可抓取的外部資料源如下：

Web (URL Reader)
Azure SQL Database
Azure Table
Hive Table
Windows Azure BLOB storage

其實 AML Studio 甚至說整個 Azure 的 UI/UX，做得很像 Wordpress 最近一兩年的後台風格，而 Wordpress 市占率如此之高、如此商業化，那麼長相相似一樣的 Azure 又何嘗不可呢？

關於 Samples

其實比較昂貴的大量儲存空間，如果雲端解決方案比較貴的話，那就在本地建一個即可，所以基本上還是要擁抱 Cloud Native 的思維。

Samples Visualization (Scatter Plots、Log Plots 等等)、Samples Statistics 也是另一個不需要花人力時間實作的環節，因為這都已經是固定的套路了，而且開放工具多而又多，等到進到客製化的時候，再用真正專業的套件上場開發即可。這方面第一手分析的獲取，應該在幾秒內完成。

上傳自己的資料集的時候，AML Studio 已經考慮到一個貼心的設計，當原始資料很大時，可將原檔案 ZIP 壓縮至 1/10 後上傳，到雲上再解壓縮，非常標準、貼心、漂亮的解法。大數據本來就應該不落地。在雲之間傳來傳去時，還有一個實務面要考慮，就是已經拿過來的資料就把它「Cache」，就不用每次啟動算法都要抓一次。真是貼心、又如此基本的設計。