iT邦幫忙

2025 iThome 鐵人賽

0
自我挑戰組

找工作期間不要讓自己太廢系列 第 52

DAY 52 與Governance有關的SageMaker和Summary

  • 分享至 

  • xImage
  •  

ML Governance

  • SageMaker Model Cards: 將模型的關鍵資訊集中在一起的方式,比如記錄模型的預期用途、風險等級、以及模型的訓練細節
  • SageMaker Model Dashboard: 集中管理所有SageMaker模型,比如每個模型的詳細資訊與資料品質
    追蹤哪些模型正在deploy、哪些模型正在inference
    偵測出哪些模型違反了設定的品質門檻
  • SageMaker Role Manager: 為不同員工定義權限與職責的工具
  • Model Monitor: 每個模型都可以設定,模型進入生產環境後,可持續監控或定期監控model,當模型發生drift也就是出現預測或分類偏差時,可以提早偵測並提醒
  • SageMaker Model Registry: 集中式的模型儲存庫,可用來追蹤、管理與版本控制所有ML模型
    查看所有模型的版本、相關的metadata,可設定模型的審核與核准狀態
  • SageMaker Pipelines: 自動化模型的建立、訓練與部署過程,概相當於ML版的CI/CD
    快速建立、訓練、測試與部署數百個模型,實現更快的迭代、減少錯誤、移除人工步驟並確保流程可重現
    1. Processing: 資料處理
    2. Training: 模型訓練
    3. Tuning:超參數調整與最佳化
    4. AutoML: 自動化模型訓練
    5. Model: 建立或註冊SageMaker模型(Model Registry)
    6. ClarifyCheck: 使用SageMaker Clarify進行資料與模型偏差檢查、解釋性分析
    7. QualityCheck: 檢查資料或模型品質是否符合標準

SageMaker JumpStart

  • Machine Learning Hub
  • 可直接於SageMaker啟動的Foundation Model、Computer Vision Model、以及NLP Model
  • 規模比Amazon Bedrock大,包含來自Hugging Face、Databricks、Meta、Stability AI等許多模型
  • 完全依照資料與應用情境進行自訂化,並且可以直接在SageMaker上部署
  • 也提供預先建好的ML模型
  • 主要兩種功能
    Machine Learning Hub: 選擇模型 -> 實驗 -> 使用資料進行fine-tuning或從頭訓練 -> 部署模型
    Machine Learning Solutions: 選擇現成的案例 -> 自訂 -> 部署

SageMaker Canvas(SageMaker Studio 的一部分)

  • 無需程式碼的視覺化介面,直接建立ML模型
  • ex:指定資料集中的一個欄位作為預測目標,Canvas會引導整個模型建立流程
  • Canvas由SageMaker Autopilot提供支援(運用了AutoML並整合SageMaker Studio)
  • 在此過程中需要進行資料轉換,系統會使用Data Wrangler來處理
  • SageMaker Canvas與 Rekognition、Comprehend、Textract之間有整合,可運用多種AWS的AI服務

MLFlow

  • 幫助管理整個ML生命週期
  • 也可以整合進SageMaker Studio(從 SageMaker 啟動一個稱為 MLFlow Tracking Server)

SageMaker 的額外功能

  • Network Isolation Mode: 確保SageMaker工作容器沒有任何外部網路存取,防止訓練模型時使用的資料洩漏到網路上的攻擊者
    啟用後,只能存取訓練所需的資料,無法存取 Amazon S3、VPC 內的資源,甚至無法連上網
  • SageMaker DeepAR forecasting algorithm: 利用RNN來預測時間序列資料

Summary

  • SageMaker:end-to-end ML服務
  • SageMaker Automatic Model Tuning: 調整模型的hyperparameter
  • SageMaker Deployment & Inference: 支援real-time、serverless、asynchronous、batch inference
  • SageMaker Studio: 整合式介面,用來進行端到端的機器學習流程
  • SageMaker Data Wrangler: 探索與準備資料集,並建立特徵
  • SageMaker Feature Store: 集中儲存特徵的中繼資料
  • SageMaker Clarify: 用來比較模型、解釋模型輸出中哪些特徵最具影響力,並偵測資料集中的偏差
  • SageMaker Ground Truth: 用於RLHF,人工進行模型評估與資料標註
  • SageMaker Model Cards: 建立機器學習模型文件
  • SageMaker Model Dashboard: 集中檢視所有模型
  • SageMaker Model Monitor: 監控與警示模型狀態
  • SageMaker Model Registry: 集中管理所有機器學習模型版本的儲存庫
  • SageMaker Pipelines: 用於機器學習流程的CI/CD
  • SageMaker Role Manager: 進行存取控制管理
  • SageMaker JumpStart: 快速找到並部署預建的機器學習解決方案
  • SageMaker Canvas: 無需撰寫程式碼的介面,可建立完整的機器學習流程
  • MLFlow on SageMaker: 在AWS上啟動 MLFlow Tracking Server,以管理訓練與實驗過程

上一篇
DAY 51 SageMaker Clarify&Ground Truth
系列文
找工作期間不要讓自己太廢52
圖片
  熱門推薦
圖片
{{ item.channelVendor }} | {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言