ML Supervised Learning
- 學習映射函數,用來預測新的輸入資料的輸出
- 使用標記資料,但在數百萬筆大量資料上執行時較為困難
- Regression
輸出變數是連續的,表示在一定範圍內取任意值
- Classification
輸出變數是離散的,但有特定的類別或群組,比如Binary/Multiclass Classification、Multi-label Classification(一筆資料同時多個label)
kNN
- Training Set(用於訓練模型)、Validation Set(用於調整模型參數並驗證模型效能)、Test Set(用於評估模型的效能)
ML Unsupervised Learning
- 發現訓練資料中的結構或關聯性
- 模型自行找出並建立群組,但人類仍會為輸出的結果加上label
- ex:Clustering、Association Rule Learning、Anomaly Detection
- Clustering
根據特徵將相似的資料點分組成群集
ex:Kmeans
- Association Rule Learning
希望了解哪些產品經常被一起購買
ex:Apriori
- Anomaly Detection
Fraud Detection,
ex:Isolation Forest
Semi-supervised Learning
- 使用少量label資料訓練模型,在使用模型label大量unlabel資料(pseudo-labeling)
- 模型隨後會在混合資料上重新訓練
Self-Supervised Learning
- 不需要人類標註資料,模型自己為資料生成pseudo-labeling
- 使用pseudo-labeling來解決傳統上由supervised learning處理的問題
- ex:BERT、GPT、影像識別
- pre-text tasks,給模型一些簡單的任務去解決,藉此教模型建立資料集的representation
- 學會從任意部分預測其他部分、從過去預測未來、從可見部分預測被遮蔽部分,或從所有可用部分預測任何被遮擋部分。
- 完成pre-text tasks,模型會在內部建立自己的internal representation並生成自己的pseudo-labels
- 經過大量pre-text tasks訓練後,模型執行downstream tasks
- 模型透過pre-text tasks生成自己的pseudo-labels,進而學習資料特徵並應用於實際任務。
Feature Engineering
- 將原始資料轉換為有意義特徵的過程
- Feature Extraction、Feature Selection、Feature Transformation(normalize,有助於梯度下降模型可以更快收斂)、Feature Creation
- 對於unstructured data,使用word embeddings將文字轉為數值特徵;使用CNN提取圖片edges、textures等特徵
Reinforcement Learning (RL)
- 透過agent在環境中執行動作來學習決策,以最大化累積Reward
- Agent,學習者或決策者
- Environment,代理互動的外部系統
- Action,代理所做的選擇
- Reward,環境根據代理動作給予的回饋
- State,環境當前的情況
- Policy,代理用來根據狀態決定動作的策略
- agent觀察目前Environment的state,根據Policy選擇Action,Environment轉換到新state並提供Reward,agent更新Policy以改善未來決策
- 目的在於隨時間最大化累積Reward
- 可用於Gaming、Robotics、Finance、Healthcare、Autonomous Vehicles
Reinforcement Learning from Human Feedback(RLHF)
- 透過人類feedback來微調模型參數,將人類認為較好的答案機率提高,不好的答案就降低
- 比較模型的回應與人類的回應,再由由人類評估模型回應的品質
- data collection -> supervised fine-tuning of a language model -> build a separate reward model(人類偏好的回應) -> optimize the language model with the reward-based model(reward-based model會根據language model的輸出給出一個reward並反饋回language model)