iT邦幫忙

2024 iThome 鐵人賽

DAY 3
1
AI/ ML & Data

征服機器學習的終極秘技系列 第 3

Day 3 - 機器學習的基本流程與重要步驟

  • 分享至 

  • xImage
  •  

前言

在上一篇文章中,我們探討了機器學習的基本類型,包括監督式學習和非監督式學習。監督式學習通過使用已標註的數據(有答案)來訓練模型,進行數據的預測或分類。在本篇文章中,我們將深入探討機器學習的基本流程與重要步驟,並集中於監督式學習。為什麼我們要先深入探討監督式學習呢?因為監督式學習是機器學習中最常見和基礎的方法之一,不僅應用廣泛,也是理解機器學習核心概念的重要基礎。

https://ithelp.ithome.com.tw/upload/images/20240904/20168116iTLdp8Rg3L.jpg
[自行製圖]

上圖是筆者在學習 ML 的過程中,整理出的一套自己理解的系統。這些步驟概述了機器學習的一般流程,幫助更好地理解和應用這些技術來解決實際問題。在接下來的文章中,我們將逐步深入探討每個步驟的具體功能、相關名詞的解釋,以及如何在實際中應用這些步驟來建立機器學習模型並做預測。

機器學習的基本步驟概述

首先,讓我們簡要介紹每個步驟的功能:

1. 問題定義及數據收集

  • 第一步是清楚定義問題,明確我們要解決的問題類型,例如上一篇文章提到的分類問題或回歸問題。千萬不要沒確認題目就陷進去硬玩 ML 啊~~ (筆者先在這裡留個易踩坑的伏筆)
  • 題目確定後就要開始收集數據啦~~ (請記得要收集與問題相關的數據)

2. 資料探勘及數據清理

  • 收集完數據後我們要對原始數據進行數據分析,他有一個名稱叫探索性分析 (EDA)。此步驟是要了解每一個參數的實質意義、了解參數之間的統計分布情況。
  • 接著需要了解收到的數據是否有問題,比如極端值/ 異常值、缺失值、重複數據,並做相對應的處理。這些問題如果不解決,會對後續的分析和模型訓練產生負面影響。 (後面文章會詳細提及)

3. 特徵工程

從原始數據中提取有意義的特徵,因為良好的特徵工程對模型效果有重大影響。機器在學習時,往往只看得懂數字而非類別,因此為了讓機器能夠學習,會需要進行編碼,例如,將分類變數轉換為數字表示,或進行標準化處理,使數據符合模型的輸入規範。

4. 數據集切分

需再度確認數據完整性並將數據拆分為訓練集、驗證集和測試集。 這步驟是數據預處理的其中一環,顧名思義就是在後續的模型訓練、調參、評估步驟中都會使用到的數據進行預備處理。

5. 演算法建立

依據想解決的題目問題屬性去選擇合適的算法,此算法又稱作演算法。在訓練集數據套用演算法所做出來的結果又稱作模型。演算法會依據不同要解決的問題如回歸、分類問題而有不同做法。選擇合適的演算法和模型架構,是模型訓練成功的關鍵之一 。

6. 模型評估及優化

  • 將訓練完的模型套用在驗證集和測試集,不同的問題也會有不同的評估模型指標 (方式)
  • 評估完之後總是需要評定最好的模型並進行微調優化,讓效能更好,好到是大眾或專業人士可以接受的結果或效能。

7. 模型預測及部署

  • 將優化過後的模型套用在任何新數據,只要有新數據,就可以運用模型給出最終要預測的結果。
  • 通常預測都是在後端進行結果產出,但真正使用者不需要看到機器自行學習的過程,因此,有一定的必要將模型部署到生產環境中,並對其進行持續的數據更新、監控和維護,以確保其性能穩定,並根據需要進行更新。

結論

以上是機器學習基本流程和各個步驟的概述。在未來的文章中,我們將逐步深入探討每個步驟的具體操作和注意事項,幫助大家更好地理解和應用機器學習技術。每一個步驟都有其重要性和挑戰,希望讀者能夠通過這些文章,掌握機器學習的核心技能,並能夠在實際項目中靈活應用。


上一篇
Day 2 - 機器學習的應用與基本分類
下一篇
Day 4 - 機器學習項目的起點:問題定義與數據收集
系列文
征服機器學習的終極秘技30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言