在上一篇文章中,我們探討了機器學習的基本類型,包括監督式學習和非監督式學習。監督式學習通過使用已標註的數據(有答案)來訓練模型,進行數據的預測或分類。在本篇文章中,我們將深入探討機器學習的基本流程與重要步驟,並集中於監督式學習。為什麼我們要先深入探討監督式學習呢?因為監督式學習是機器學習中最常見和基礎的方法之一,不僅應用廣泛,也是理解機器學習核心概念的重要基礎。
[自行製圖]
上圖是筆者在學習 ML 的過程中,整理出的一套自己理解的系統。這些步驟概述了機器學習的一般流程,幫助更好地理解和應用這些技術來解決實際問題。在接下來的文章中,我們將逐步深入探討每個步驟的具體功能、相關名詞的解釋,以及如何在實際中應用這些步驟來建立機器學習模型並做預測。
首先,讓我們簡要介紹每個步驟的功能:
1. 問題定義及數據收集
2. 資料探勘及數據清理
3. 特徵工程
從原始數據中提取有意義的特徵,因為良好的特徵工程對模型效果有重大影響。機器在學習時,往往只看得懂數字而非類別,因此為了讓機器能夠學習,會需要進行編碼,例如,將分類變數轉換為數字表示,或進行標準化處理,使數據符合模型的輸入規範。
4. 數據集切分
需再度確認數據完整性並將數據拆分為訓練集、驗證集和測試集。 這步驟是數據預處理的其中一環,顧名思義就是在後續的模型訓練、調參、評估步驟中都會使用到的數據進行預備處理。
5. 演算法建立
依據想解決的題目問題屬性去選擇合適的算法,此算法又稱作演算法。在訓練集數據套用演算法所做出來的結果又稱作模型。演算法會依據不同要解決的問題如回歸、分類問題而有不同做法。選擇合適的演算法和模型架構,是模型訓練成功的關鍵之一 。
6. 模型評估及優化
7. 模型預測及部署
以上是機器學習基本流程和各個步驟的概述。在未來的文章中,我們將逐步深入探討每個步驟的具體操作和注意事項,幫助大家更好地理解和應用機器學習技術。每一個步驟都有其重要性和挑戰,希望讀者能夠通過這些文章,掌握機器學習的核心技能,並能夠在實際項目中靈活應用。