iT邦幫忙

2024 iThome 鐵人賽

DAY 12
0
AI/ ML & Data

機器學習與深度學習背後框架與過程論文與實作系列 第 12

DAY12 機器學習小白序曲 12/30

  • 分享至 

  • xImage
  •  

從今天開始我們將會正式介紹機器學習的概念,以及執行步驟與衡量一個模型的好壞,大家都知道機器學習簡單來說就是更現代版的統計學,statistics is basis,所以如果你的統計學不好、線性代數也沒有概念的話,當接觸到更深層的數學概念時就無法消化入肚,因此擁有基礎知識非常的重要。

簡單將機器學習分層四個大類:

  1. 監督式學習Supervised Learning
    模型從帶有標籤的訓練資料中學習,目的是預測新資料的標籤,也就是說明了每個標籤都有對應的答案。
    例如:分類(如垃圾郵件檢測)和迴歸(如房價預測)。
  2. 非監督式學習Unsupervised Learning
    模型從沒有標籤的資料中學習,主要目的是發現資料中的結構或模式,即便標籤沒有對應的答案,也能將其歸類。
    例如:聚類(如客戶分群)和降維(如主成分分析)。
  3. 半監督式學習Semi-Supervised Learning
    結合少量帶標籤的資料和大量無標籤的資料來訓練模型,讓測試集資料能夠有效運作。例如:當標籤資料昂貴或難以獲得時,這種方法特別有用。
  4. 強化學習Reinforcement Learning
    定義:模型透過與環境互動,根據獎勵正確信號、懲罰錯誤來學習策略,以最大化累積獎勵。例如:遊戲AI、自動駕駛等。

一般來說,我們在執行機器學習來解決問題時會執行五大步驟分別為:
當進行機器學習專案時,這五個步驟代表了整個流程的關鍵環節。以下是對每個步驟的詳細解釋:

1. 定義問題 (Define Problem)

  • 解釋:在開始任何機器學習專案之前,首先需要明確你要解決的問題。這一步驟是整個過程的基礎,因為如果問題定義不清晰,後續的步驟也無法順利進行。要將問題轉化為具體的機器學習任務,必須考慮問題的性質和預期的結果。以股票市場為例,如果你想知道如何不賠錢,實際上你在問的是「如何預測股票市場的走勢?」這是一個迴歸問題,因為你想預測未來的連續數值(如股價)。

2. 建立資料集 (Build Dataset)

  • 解釋:一旦問題定義清楚,下一步就是收集並準備資料。資料集是機器學習模型學習的基礎。資料應該包括足夠的特徵(features)和標籤(labels)來支持模型訓練。資料集的質量直接影響模型的性能,因此這一步驟包括資料收集、清理、轉換和標註。以股票市場預測為例,你可能需要歷史股價、交易量、經濟指標等資料。

3. 訓練模型 (Train Model)

  • 解釋:在資料準備完成後,我們將資料分為訓練集(Training Data)和測試集(Testing Data)。訓練集用來訓練機器學習模型,即讓模型學習資料中的模式。這一步驟中,模型會不斷調整其參數,以最小化預測誤差。不同的機器學習算法會有不同的訓練方法,目標是找到最佳參數使模型能夠有效預測。

4. 評估模型 (Evaluate Model)

  • 解釋:模型訓練完畢後,使用測試集來評估模型的性能。這是為了確保模型能夠泛化到未見過的資料,而不僅僅是在訓練資料上表現良好。常用的評估指標包括準確率、均方誤差、F1分數等,根據問題的性質選擇合適的指標。例如,在股票市場預測中,可以使用均方誤差來衡量預測股價與實際股價之間的差距。

5. 使用模型 (Use Model)

  • 解釋:當模型通過評估後,證明其有良好的泛化能力,就可以在實際應用中使用模型了。這一步驟包括將模型部署到生產環境中,並使用其來進行實時預測或決策。例如,你可以將訓練好的股票市場預測模型部署到一個交易系統中,根據模型的預測來做出買賣決策。這也包括監控模型在實際使用中的表現,必要時進行模型更新或調整。

這五個步驟構成了機器學習專案的完整流程,從問題的定義到最終的應用,每一步都對最終結果有著至關重要的影響。


上一篇
gg
下一篇
DAY13 如何評估機器學習模型的好與不好 5/30
系列文
機器學習與深度學習背後框架與過程論文與實作30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言