到這裡,我們可能對機器學習 project 的套路有一點感覺了,大概如下:
但套路中的法門就很深了…整個跑火車(training)的過程,60% 70% 的時間花在前兩點,也是很合理的。深度學習(DL)的出現,不僅因為 GPU 加速的關係,讓類神經的模型復興,可以隨著資料量增加,準確度提升,這件事是以往機器學習作不到的。
此外,在圖片、音訊、自然語言…等方面,也有了新的特徵工程的套路。例如以往我們作不同物品、人像辨識時,可能會需要不同的 feature extraction ,例如行人辨識可能會用到 HOG ,在其他類型的圖片辨識可能會有完全無法套用的情形。現在這一次,都交給卷積處理。
回到今天原本要講的主題,出現在實戰第七章,負面評論識別,我們今天先跑一個類似而簡單的範例,也就是 keras 範例[註1]裡,電影評論情緒識別[註2],colab notebook 跑的結果請看 gist[註3]