iT邦幫忙

2023 iThome 鐵人賽

DAY 22
0
AI & Data

夥伴們!一起航向AWS Certified Machine Learning Specialty的偉大航道吧!系列 第 22

Day 22 第三站 Modeling - SageMaker Built-In 機器學習演算法 Part 1

  • 分享至 

  • xImage
  •  

SageMaker內建許多機器學習演算法。開始介紹之前,我們先新增一些SageMaker資料處理的背景知識:

  1. SageMaker提供不同讀取檔案的方式,File Mode與Pipe Mode。
  • File Mode:直接將資料下載到SageMaker Container上。File Mode適用情境有:
    • 內存不足以跑動Pipe Mode的時候(Pipe Mode Streaming需要用到內存)
    • 資料沒有存放在S3上的時候
    • 需要即時生成檔案的時候
  • Pipe Mode:從S3讀取資料到SageMaker Container。因為是採用Streaming方式,相對於File Mode,資料讀取的初始化時間比較快,也有比較大的throughput。
  1. RecordIO:一種高效儲存資料的格式。常用於深度學習的模型訓練的資料格式上。

1. Linear Learner

應用場景

針對regression與classification預測的應用場景。

資料輸入的檔案格式

  • Float32的RecordIO
  • CSV檔案格式(第一欄是label名稱)

演算法超參數的設定

  • Class Weights: 針對各類別的資料平衡問題,可採用權重去調整模型訓練過程的重點類別
  • Regularization:採用L1與L2來避免Overfitting的問題
  • Loss Function
  • Learning Rate與Batch Size

2. XGBoost

應用場景

針對regression與classification預測的應用場景。

資料輸入的檔案格式

  • RecordIO
  • CSV
  • libsvm Format
  • Parquet

演算法超參數的設定

  • Max Depth:決定模型的複雜度,數值越大,越有可能發生Overfitting的問題
  • Scale Pos Weight:可針對資料不平衡的問題來調整類別的權重
  • Eval Metric:可以定義我們最在意的模型驗證指標,例如AUC

3. Seq2Seq

應用場景

針對input與output皆是序列的應用場景。例如,中英文字的翻譯、語音轉文字。

資料輸入的檔案格式

  • RecordIO

演算法超參數的設定

  • Batch Size與Learning Rate
  • Optimizer
  • Encoder與Decoder的layer數量
  • Eval Metrics: BLEU、Perplexity、Accuracy

4. DeepAR

應用場景

針對一維時間序列資料的預測。

資料輸入的檔案格式

  • Gzip或Parquet

演算法超參數的設定

  • Learning Rate與Batch Size
  • Context Length:時間序列資料的長度
  • Epochs:模型訓練的次數

5. BlazingText

應用場景

  • 針對輸入文字的類別預測。例如判斷某一篇文章是正面或負面情緒。
  • 取得文字的向量,可用來做相似性的比對或其他模型的訓練。

資料輸入的檔案格式

  • text檔案

演算法超參數的設定

  • 文字類別的預測
    • Learning Rate
    • Vector長度
    • Ngram設置
    • Epochs:模型訓練次數
  • 文字向量的取得
    • 模型架構的選用
    • Learning Rate
    • Window Size
    • 輸出的Vector長度

6. Object2V

應用場景

把圖像物件轉換成向量。

資料輸入的檔案格式

  • JSON

演算法超參數的設定

  • 模型架構選擇
  • Learning Rate、Batch Size、Epochs等其他深度學習模型的超參數。

7. Obejct Detection

應用場景

影像的物件偵測。例如匡選出一張影像內的人臉。

資料輸入的檔案格式

  • RecordIO
  • JPG或PNG影像

演算法超參數的設定

  • Learning Rate與Batch Size
  • Optimizer

8. Image Classification

應用場景

針對影像的類別去預測。

資料輸入的檔案格式

  • 影像圖檔

演算法超參數的設定

  • 深度學習超參數

9. Semantic Segmentation

應用場景

Pixel層級的物件偵測。能針對物件的輪廓去做出識別。

資料輸入的檔案格式

  • 影像圖檔

演算法超參數的設定

  • 演算法的選用
  • 深度學習的超參數

ChatGPT出題時間:

問題1:哪個SageMaker模型特別適合用於時間序列預測,例如股票價格預測或天氣預報?

A) Linear Learner
B) XGBoost
C) Seq2Seq
D) DeepAR
E) BlazingText

答案:D) DeepAR

解釋: DeepAR模型專門設計用於處理時間序列預測問題,它具有遞歸神經網絡(RNN)架構,能夠捕捉時間序列中的複雜模式和趨勢。


問題2:哪個SageMaker模型特別適合用於自然語言處理(NLP)任務,例如文本分類或詞嵌入訓練?

A) Linear Learner
B) XGBoost
C) Seq2Seq
D) DeepAR
E) BlazingText

答案:E) BlazingText

解釋: BlazingText是SageMaker中的NLP模型,支援文本分類、詞嵌入等任務。它基於fastText實現,能夠高效處理文本數據。


問題3:哪個SageMaker模型特別適合用於構建序列到序列(seq2seq)模型,例如機器翻譯或對話生成?

A) Linear Learner
B) XGBoost
C) Seq2Seq
D) DeepAR
E) BlazingText

答案:C) Seq2Seq

解釋: Seq2Seq是SageMaker中的序列到序列模型,專門用於處理序列生成任務,如機器翻譯或對話生成。


問題4:哪個SageMaker模型是一個集成學習(Ensemble Learning)模型,通常用於提高預測性能?

A) Linear Learner
B) XGBoost
C) Seq2Seq
D) DeepAR
E) BlazingText

答案:B) XGBoost

解釋: XGBoost是一個集成學習模型,用於回歸和分類任務,它通常能夠提供優秀的預測性能,特別適合處理結構化數據。


以下是針對Amazon SageMaker中不同模型(Object2V、Object Detection、Image Classification、Semantic Segmentation)的五個選擇題,每個問題都附有答案和解釋:

問題5:哪個SageMaker模型特別適合用於圖像分類,即將圖像分為不同的類別或標籤?

A) Object2V
B) Object Detection
C) Image Classification
D) Semantic Segmentation

答案:C) Image Classification

解釋: Image Classification模型專門用於圖像分類,它可以識別圖像中的對象或場景,並將其分為不同的類別或標籤。


問題6:哪個SageMaker模型特別適合用於檢測圖像中的對象,並標示出對象的位置(通常使用邊界框)?

A) Object2V
B) Object Detection
C) Image Classification
D) Semantic Segmentation

答案:B) Object Detection

解釋: Object Detection模型用於檢測圖像中的對象,並標示出對象的位置,通常使用邊界框來表示對象的位置。


問題7:哪個SageMaker模型特別適合用於將圖像中的每個像素分類為不同的類別,通常用於圖像分割任務?

A) Object2V
B) Object Detection
C) Image Classification
D) Semantic Segmentation

答案:D) Semantic Segmentation

解釋: Semantic Segmentation模型用於將圖像中的每個像素分類為不同的類別,通常用於圖像分割任務,其中每個像素都有其對應的類別標籤。


問題8:哪個SageMaker模型特別適合用於從非結構化文本數據中提取特徵向量,以用於文本相似性分析或檢索任務?

A) Object2V
B) Object Detection
C) Image Classification
D) Semantic Segmentation

答案:A) Object2V

解釋: Object2V模型用於將非結構化文本數據轉換為特徵向量,通常用於文本相似性分析、檢索或其他NLP任務。


上一篇
Day 21 第三站 Modeling - SageMaker
下一篇
Day 23 第三站 Modeling - SageMaker Built-In 機器學習演算法 Part 2
系列文
夥伴們!一起航向AWS Certified Machine Learning Specialty的偉大航道吧!30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言