DAY12 機器學習小白序曲 12/30

2024 iThome 鐵人賽

DAY 12

AI/ ML & Data

16th鐵人賽

572 瀏覽

從今天開始我們將會正式介紹機器學習的概念，以及執行步驟與衡量一個模型的好壞，大家都知道機器學習簡單來說就是更現代版的統計學，statistics is basis，所以如果你的統計學不好、線性代數也沒有概念的話，當接觸到更深層的數學概念時就無法消化入肚，因此擁有基礎知識非常的重要。

簡單將機器學習分層四個大類:

監督式學習Supervised Learning
模型從帶有標籤的訓練資料中學習，目的是預測新資料的標籤，也就是說明了每個標籤都有對應的答案。
例如:分類（如垃圾郵件檢測）和迴歸（如房價預測）。
非監督式學習Unsupervised Learning
模型從沒有標籤的資料中學習，主要目的是發現資料中的結構或模式，即便標籤沒有對應的答案，也能將其歸類。
例如:聚類（如客戶分群）和降維（如主成分分析）。
半監督式學習Semi-Supervised Learning
結合少量帶標籤的資料和大量無標籤的資料來訓練模型，讓測試集資料能夠有效運作。例如:當標籤資料昂貴或難以獲得時，這種方法特別有用。
強化學習Reinforcement Learning
定義：模型透過與環境互動，根據獎勵正確信號、懲罰錯誤來學習策略，以最大化累積獎勵。例如:遊戲AI、自動駕駛等。

一般來說，我們在執行機器學習來解決問題時會執行五大步驟分別為:
當進行機器學習專案時，這五個步驟代表了整個流程的關鍵環節。以下是對每個步驟的詳細解釋：

解釋：在開始任何機器學習專案之前，首先需要明確你要解決的問題。這一步驟是整個過程的基礎，因為如果問題定義不清晰，後續的步驟也無法順利進行。要將問題轉化為具體的機器學習任務，必須考慮問題的性質和預期的結果。以股票市場為例，如果你想知道如何不賠錢，實際上你在問的是「如何預測股票市場的走勢？」這是一個迴歸問題，因為你想預測未來的連續數值（如股價）。

解釋：一旦問題定義清楚，下一步就是收集並準備資料。資料集是機器學習模型學習的基礎。資料應該包括足夠的特徵（features）和標籤（labels）來支持模型訓練。資料集的質量直接影響模型的性能，因此這一步驟包括資料收集、清理、轉換和標註。以股票市場預測為例，你可能需要歷史股價、交易量、經濟指標等資料。