範例(二)預測心血管疾病的可能性 - iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

2021 iThome 鐵人賽

DAY 11

0

AI & Data

AI平台初學者工作坊: 從training、tracking到serving系列第 11 篇

範例(二)預測心血管疾病的可能性

13th鐵人賽

2021-09-24 09:20:00

1749 瀏覽

分享至

第二個範例將以心血管疾病的Dataset進行說明如何執行training、tracking與serving. 這個範例來源為這裡.

第Day1 的示意圖表示如下:

Training: 一樣使用JupyterHub
Tracking: 也一樣使用MLFlow, 將parameter、metrics與model記錄在MLFlow
Serving: 會使用Seldon core執行部署模型

範例程式可以從github下載

notebook: cardiovascular_disease_prediction_notebook.ipynb
dataset: cardio_train.csv

在cardio_train.csv裡面的欄位包含:

age: 年齡
gender: 姓別
height: 身高
weight: 體重
ap_hi: 收縮壓
ap_lo: 舒張壓
cholesterol: 膽固醇狀況
gluc: 血糖狀況
smoke: 是否抽煙
alco: 是否飲酒
active: 活動狀況
cardio: 罹患心血管疾病的機率

訓練完成後, 執行推論時,使用者需要提供age、gender、height、weight、ap_hi、ap_lo、cholesterol、gluc、smoke、alco、active資料, 系統將會回傳該人員罹患心血管疾病的機率.

執行訓練時會使用XGBoost(eXtreme Gradient Boosting)進行模型的訓練, 關於XGBoost的介紹可以參考wikipedia

會使用這個範例進行說明的原因下如:

因為資料量不大,所以執行訓練的時間比較短(省時)
XGBoost是資料科學家很常使用的機器學習工具, 在Kaggle比賽經常採用XGBoost參賽.
完成訓練之後產生的model檔可以放在seldon上進行部署

下一篇我們就來說明這份推估心血管疾病機率的notebook內容

參考資料

https://www.kaggle.com/sulianova/cardiovascular-disease-dataset
https://zh.wikipedia.org/wiki/XGBoost

使用Django部署模型

心血管疾病資料集的資料清理

系列文

AI平台初學者工作坊: 從training、tracking到serving 共 30 篇

目錄

RSS系列文訂閱系列文

6 人訂閱

完整目錄

熱門推薦

{{ item.subject }}

{{ item.channelVendor }} | {{ item.webinarstarted }} |

{{ formatDate(item.duration) }}

直播中

尚未有邦友留言

立即登入留言

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 17th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# linux windows server css react

IT邦幫忙