機器學習包含兩大階段, 訓練模型(建模,traning) 和 推論資料(使用數據模型,inference/predict) 。後者我在上課時有點不太懂,或許更多人聽過得是測試(test)或是預測(predict)。資料探勘也有這兩個階段,甚至評估模型的方式也幾乎一模一樣。
不過比較讓我意外的事情是, 機器學習會使用所有資料去訓練 (在 Lab Intro: Analyzing data using Datalab and BigQuery 這一堂課裡面說到,我還沒理解的很明白,未來或許會再提到)。但是資料探勘會將蒐集的資料分成 訓練資料集(train-dataset) 和 測試資料集(test-dataset) 。
傳統統計會使用抽樣來建模了解資料分佈,但是機器學習不同。
機器學習更喜歡使用所有資料進行學習,因為機器學習可以學習outliners(離群值)
很多人可能會更專注於怎麼訓練資料、建立模型。不過如何使用模型、推論資料也非常重要。若有不恰當的模型,可能導致不合理(不合邏輯)的結果。 機器學習只是工具 ,預測模型更接近使用工具的目的,要是太過忽視,也會造出意外的模型。
※恩,從這個角度來看我自己,我更接近資料分析師或是統計學家。畢竟以前上過好一段時間的統計和資料探勘的課,類神經網路則是最近才比較真正開始學習。