在真正開始前,需要先了解一下機器學習所需要用的框架,在依這個框架下,進行學習的討論及實驗。
(參考網站:Framing)
我們進行的是監督式機器學習,也就是說建立一個「模組」(model),結合「輸入的訊息」(input),對從未見過的數據資料,來做出有用的「預測」。因此我們會用到model、input data、label等等東東。
在訓練model,也就是我們預期的執行模組時,需要告訴它哪些東西是對的,哪些東西是錯的,或是哪些東西有什麼特質。簡單來說就是要提他們名詞,以及標準,因此就有label。
label,以電子郵件來說,我們要訓練一個辨別垃圾郵件的model,所以我們要先告訴它,有分常兩種:正常信件、垃圾信件,而這兩種就是lable,也就是我們的目標。
有了目標,我們要有特徵-feature,有特徵才能把信件根據此特徵分類,進而讓model進行判斷,得到哪些是垃圾郵件和一般郵件。feature是我們要處理的依據,這些資料可以從信件內文,或是寄件者等等任何地方取得,這些都是機器學習的養分。
資料屬性決定好後,就剩下把訓練資料放進去囉!那些資料就是example。其中拿來訓練model是叫做label example,可視為標準答案。也就是我們在練習寫數學題目的時候,習題本會有解答一樣。當model收到這些example要做出正確的分類,如果錯的話就要校正,model就會歸納出一個讓這些label example可以正確分類的方式。而unlabel example就是我們不知道該是屬於什麼類別的信箱,這就是我們所要預測的數據資料。
而以上這些就是一整個機器學習所會做的事情與架構。
簡單來說,機器學習架構有:
睫毛之聲:
開始有點複雜了,越來越玄了!