[Day27] Deploying machine learning as a service-1

2018 iT 邦幫忙鐵人賽

DAY 28

AI & Machine Learning

到底是在learning什麼拉系列第 28 篇

2018鐵人賽 machine learning

nylon

團隊晶心壯士

2018-01-15 23:39:04

2222 瀏覽

分享至

Open challenges in ML

在這門課裡面提到了許多不同的機器學習方法以及其可能的應用，但這堂課還是留下一些問題，所以接下來就是要談談這些挑戰

Model selection

其中一個就是，我們往往被迫在許多模型中做出選擇

當我們提到推薦系統，會使用分類模型，我們提取使用者和商品的特徵放到 classifier ，然後判斷使用者是否喜歡這個商品，在那之後我們學到 matrix factorization

如果我們想把潛在模型全部列出來，那將是一件浩大的工程，而且對實施者也非常複雜

太多模型可以選擇，我們到底該選擇那一個?模型的選擇仍舊是這個領域極大的挑戰(2015的結論)

Feature engineering/representation

另一個挑戰是，我們要如何呈現我們的資料

在先前的 document retrieval 我們使用了簡單的字數統計、normalize 向量、 tf-idf 來計算我們較普遍使用的詞，然後強調它在文件中的重要性

事實上 tf-idf 有許多變種，在這裡僅僅提供一些例子，你可以用到 Bigrams、Trigrams...等，來表示在文件中出現的用詞

你可能不只會有文件，有可能面臨到圖片或其他擁有相對複雜結構的資料，因此我們如何呈現資料會對資料如何判斷有著重要影響(Good vs Not good)

Scaling

另一個重要的挑戰是機器學習如何處理多維度問題?事實上資料變得越來越多，我們可以想一下我們可能碰到的情形

隨著資料量的增加，我們有不同的網路社交平台，從更廣泛的管道取得資料，比如你在臉書上對某間餐廳的評價或者在亞馬遜上的商品評價...

比那些還要更多的還有，現在有了穿戴式裝置，一個能監控我做什麼活動、睡著了沒?

資料只會越來越多，我們可以從中知道，一個人的客觀身體素質、購買習慣、交友圈、閱讀喜好....

我們需要新的方法來分析這些資料，並對某種有特殊結構的資料進行分析

最後還有 Big data 該如何處理?

當資料變得非常大時，我們會面臨到越來越複雜的資料，不只如此模型本身也會變得肥大，這樣才能夠因應那些資料提取想要的訊息，就像之前 clustering 中提到的紀錄大腦的活動

CPUs stopped getting faster

當面臨這些問題時其實還好，因為硬體會越來越好，舉例來說我們可以看到處理的效能呈現指數型的增加

但是這種增長在十年前就停止了，我們可以看到處理器的速度呈現緩慢遞減的現象，因此我們必須思考替代方案，比較典型的方式是多核心

但緊接著的是我們要如何運用在機器學習上，最基本的兩個難題就是

處理單元該如何運作才有辦法達到完美的平行化
另一個是資料該如何被分配到每個處理單元

Reference:

Machine Learning Foundations: A Case Study Approach 華盛頓大學在 coursera 上的公開課程，為本筆記追蹤的主要素材
課程投影片

[Day26] Deploying machine learning as a service

[Day28] Deploying machine learning as a service-2

系列文

到底是在learning什麼拉共 30 篇

RSS系列文訂閱系列文

37 人訂閱

完整目錄

熱門推薦

{{ item.channelVendor }} | {{ item.webinarstarted }} |

直播中

尚未有邦友留言

立即登入留言

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 17th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# linux windows server css react

AI會議轉錄如何盡可能縮小明文攻擊面？

IT邦幫忙

到底是在learning什麼拉系列 第 28 篇