iT邦幫忙

2021 iThome 鐵人賽

DAY 11
0
AI & Data

AI平台初學者工作坊: 從training、tracking到serving系列 第 11

範例(二)預測心血管疾病的可能性

第二個範例將以心血管疾病的Dataset進行說明如何執行training、tracking與serving. 這個範例來源為這裡.

第Day1 的示意圖表示如下:

  • Training: 一樣使用JupyterHub
  • Tracking: 也一樣使用MLFlow, 將parameter、metrics與model記錄在MLFlow
  • Serving: 會使用Seldon core執行部署模型
    https://ithelp.ithome.com.tw/upload/images/20210924/201407928gGK4MeUf2.png

範例程式可以從github下載

  • notebook: cardiovascular_disease_prediction_notebook.ipynb
  • dataset: cardio_train.csv

在cardio_train.csv裡面的欄位包含:

  • age: 年齡
  • gender: 姓別
  • height: 身高
  • weight: 體重
  • ap_hi: 收縮壓
  • ap_lo: 舒張壓
  • cholesterol: 膽固醇狀況
  • gluc: 血糖狀況
  • smoke: 是否抽煙
  • alco: 是否飲酒
  • active: 活動狀況
  • cardio: 罹患心血管疾病的機率

訓練完成後, 執行推論時,使用者需要提供age、gender、height、weight、ap_hi、ap_lo、cholesterol、gluc、smoke、alco、active資料, 系統將會回傳該人員罹患心血管疾病的機率.

執行訓練時會使用XGBoost(eXtreme Gradient Boosting)進行模型的訓練, 關於XGBoost的介紹可以參考wikipedia

會使用這個範例進行說明的原因下如:

  1. 因為資料量不大,所以執行訓練的時間比較短(省時)
  2. XGBoost是資料科學家很常使用的機器學習工具, 在Kaggle比賽經常採用XGBoost參賽.
  3. 完成訓練之後產生的model檔可以放在seldon上進行部署

下一篇我們就來說明這份推估心血管疾病機率的notebook內容

參考資料

https://www.kaggle.com/sulianova/cardiovascular-disease-dataset
https://zh.wikipedia.org/wiki/XGBoost


上一篇
使用Django部署模型
下一篇
心血管疾病資料集的資料清理
系列文
AI平台初學者工作坊: 從training、tracking到serving30

尚未有邦友留言

立即登入留言