機器學習與深度學習的基礎

2018 iT 邦幫忙鐵人賽

DAY 3

AI & Machine Learning

探索 Microsoft CNTK 機器學習工具系列第 3 篇

2018鐵人賽

HO-HSUN

2017-12-22 23:16:54

10588 瀏覽

分享至

Introduction

深度學習(Deep Learning)是機器學習(Machine Learning)的一個新領域，是一個從資料中學習的演算法，其目的在合成人工智慧(Artificial Intelligence)。

深度學習是具有兩個以上隱藏層(hidden layer)的神經網路，每一層都有一個輸出，將被用作下一層的輸入。
從前一層處理過的資料中觀察並改良，提供更接近期望值的輸出，試圖從中學習以預測未來的事物。
有效的辨識(recongnize)事物的特徵(feature)，並且抽象的表示，這有助於理解數據，例如影像、聲音和文字。
所以深度學習能應用於計算機視覺，語音識別，自然語言處理(NLP)和網絡威脅檢測。

Machine Learning & Deep Learning

兩者的不同是，在機器學習中我們需要人工手動來選擇特徵，較容易存在人為偏見或錯誤。
而深度學習則通過從資料中學習來達成，也可以混合各種機器學習演算法來提高性能。

Feature Engineering

深度學習基於機器學習，所以訓練(trainning)過程，也可分為監督式學習(Supervised learning)和非監督式學習(Unsupervised learning)。

實務上，會先進行非監督式學習，將訓練資料集(trainning set)分群(clustering)，以得知可能會有哪些資料分類。
隨後進行監督式學習，標示(labeled)各資料的期望輸出值(desired output value)，重新將訓練資料集中的特徵向量(feature vectors)做為輸入，期望分類(disired class)作為輸出，透過損失函數(loss function)或稱成本函數(cost function)來計算期望輸出與輸出之間的標準差。

在訓練之後，用另一個資料集合稱為驗證集合(validation set)，來計算評估模型的準確性(Underfitting and Overfitting)。

Kaggle

Kaggle是一個資料分析的競賽平台，也是學習資料科學很好的資源。

GPU

深度學習中的開發人員，常見的一個問題是資料矩陣運算的處理速度。
影像，或複雜數據中都有矩陣元素，CPU在統計運算中，對於大數據的處理效率較低，由於深度學習需要複雜運算的函數，更需要使用GPU來處理。