iT邦幫忙

2025 iThome 鐵人賽

0
自我挑戰組

找工作期間不要讓自己太廢系列 第 38

DAY 38 各種learning

  • 分享至 

  • xImage
  •  

ML Supervised Learning

  • 學習映射函數,用來預測新的輸入資料的輸出
  • 使用標記資料,但在數百萬筆大量資料上執行時較為困難
  • Regression
    輸出變數是連續的,表示在一定範圍內取任意值
  • Classification
    輸出變數是離散的,但有特定的類別或群組,比如Binary/Multiclass Classification、Multi-label Classification(一筆資料同時多個label)
    kNN
  • Training Set(用於訓練模型)、Validation Set(用於調整模型參數並驗證模型效能)、Test Set(用於評估模型的效能)

ML Unsupervised Learning

  • 發現訓練資料中的結構或關聯性
  • 模型自行找出並建立群組,但人類仍會為輸出的結果加上label
  • ex:Clustering、Association Rule Learning、Anomaly Detection
  • Clustering
    根據特徵將相似的資料點分組成群集
    ex:Kmeans
  • Association Rule Learning
    希望了解哪些產品經常被一起購買
    ex:Apriori
  • Anomaly Detection
    Fraud Detection,
    ex:Isolation Forest

Semi-supervised Learning

  • 使用少量label資料訓練模型,在使用模型label大量unlabel資料(pseudo-labeling)
  • 模型隨後會在混合資料上重新訓練

Self-Supervised Learning

  • 不需要人類標註資料,模型自己為資料生成pseudo-labeling
  • 使用pseudo-labeling來解決傳統上由supervised learning處理的問題
  • ex:BERT、GPT、影像識別
  • pre-text tasks,給模型一些簡單的任務去解決,藉此教模型建立資料集的representation
  • 學會從任意部分預測其他部分、從過去預測未來、從可見部分預測被遮蔽部分,或從所有可用部分預測任何被遮擋部分。
  • 完成pre-text tasks,模型會在內部建立自己的internal representation並生成自己的pseudo-labels
  • 經過大量pre-text tasks訓練後,模型執行downstream tasks
  • 模型透過pre-text tasks生成自己的pseudo-labels,進而學習資料特徵並應用於實際任務。

Feature Engineering

  • 將原始資料轉換為有意義特徵的過程
  • Feature Extraction、Feature Selection、Feature Transformation(normalize,有助於梯度下降模型可以更快收斂)、Feature Creation
  • 對於unstructured data,使用word embeddings將文字轉為數值特徵;使用CNN提取圖片edges、textures等特徵

Reinforcement Learning (RL)

  • 透過agent在環境中執行動作來學習決策,以最大化累積Reward
  • Agent,學習者或決策者
  • Environment,代理互動的外部系統
  • Action,代理所做的選擇
  • Reward,環境根據代理動作給予的回饋
  • State,環境當前的情況
  • Policy,代理用來根據狀態決定動作的策略
  • agent觀察目前Environment的state,根據Policy選擇Action,Environment轉換到新state並提供Reward,agent更新Policy以改善未來決策
  • 目的在於隨時間最大化累積Reward
  • 可用於Gaming、Robotics、Finance、Healthcare、Autonomous Vehicles

Reinforcement Learning from Human Feedback(RLHF)

  • 透過人類feedback來微調模型參數,將人類認為較好的答案機率提高,不好的答案就降低
  • 比較模型的回應與人類的回應,再由由人類評估模型回應的品質
  • data collection -> supervised fine-tuning of a language model -> build a separate reward model(人類偏好的回應) -> optimize the language model with the reward-based model(reward-based model會根據language model的輸出給出一個reward並反饋回language model)

上一篇
DAY 37 ML術語
下一篇
DAY 39 模型指標
系列文
找工作期間不要讓自己太廢41
圖片
  熱門推薦
圖片
{{ item.channelVendor }} | {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言