iT邦幫忙

0

請教Python程式語言,涉及時間序列的機器學習預測模型選擇疑問!類似鳶尾花

  • 分享至 

  • xImage

各位前輩們好,想請教關於請教Python程式語言當中關於機器學習預測的方向!
我手邊有一份類似下圖的資料,初步是希望透過類似鳶尾花的模型去做預測~
但是比起鳶尾花的機器學習範例,手邊數據還多了日期的資料,因此想請教前輩們:

假設我有4位患者(123、456、789、987、654),其中2為重複就診(123、456),
每位患者依照"不同日期"到院檢查,
檢視身體"健康指標1~6"與疾病診斷"糖尿病、高血壓、肝臟病、高血脂、心臟病",
直到病情嚴重到需要"住院"結束。
我想預測資料集中的患者們,根據檢查結果,誰有可能也會住院(到此為止,類似鳶尾花),此外,在何時或第幾次檢查時,會有住院的可能(這邊加入日期與患者是誰...找不到相關範例)。

查詢網路相關的範例或kaggle資料集似乎都沒有相關的範本可以參照,因此想請前輩們指點方向,該如何著手或可以參考哪個資料集範本做嘗試,再次感謝願意回答的前輩們!


https://ithelp.ithome.com.tw/upload/images/20230513/20148272NPaX1Hkckf.png


到院日期 id 身高 體重 年齡 性別 健康指標1 健康指標2 健康指標3 健康指標4 健康指標5 健康指標6 糖尿病 高血壓 肝臟病 高血脂 心臟病 是否住院
20230101 123 161 60 26 m 3.56 40 123 1.2 5.6 84 是 是 否 否 否 否
20230102 123 161 60 26 m 3.56 40 123 1.2 5.6 84 是 是 否 是 否 否
20230103 123 161 60 26 m 3.45 42 122 1.01 5.4 70 是 是 否 是 否 否
20230101 456 172 65 31 f 5.5 29 109 1.6 5.4 81 否 否 否 是 是 否
20230102 456 172 65 31 f 6.12 54 112 1.7 5.01 71 否 否 是 是 是 否
20230201 789 176 91 34 m 4 50 116 2.5 6.1 83 是 是 否 是 否 是
20230201 987 169 84 38 f 3.9 45 117 2.1 6.2 81 否 否 否 是 是 否
20230301 123 161 60 26 m 3.55 39 121 1 5 80 是 是 是 是 否 是
20230301 456 172 65 31 f 4 40 124 1.9 5.8 76 是 否 是 是 是 是
20230401 654 183 71 40 m 5.1 38 128 2 5.4 78 是 是 否 否 否 否


增廣建文 iT邦研究生 5 級 ‧ 2023-05-13 13:34:39 檢舉
鳶尾花只是個資料集
能用的模型有很多種
增廣建文 iT邦研究生 5 級 ‧ 2023-05-13 13:36:19 檢舉
不用id跟時間當feature的預測效果很差?
應該不知道從何著手建置預測模型,發文的出發點是想看看前輩們的建議,感謝回答!
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

2 個回答

0
增廣建文
iT邦研究生 5 級 ‧ 2023-05-13 21:01:56
  1. 可以先簡單前處理後直接丟個tree based model看看效果
  2. 如果資料量夠大或是覺得時序列資訊很重要可以嘗試LSTM
  3. 看能不能有更多資訊來建user embedding

感謝提供思路,會試試看LSTM的方式!

0
at3721
iT邦見習生 ‧ 2023-05-14 08:05:50

只要可以做 Binary Classification,使用哪種模型不重要。
你需要的是更多的資料處理,尤其是針對時間尺度的變量,比如說:

  1. 就診次數
  2. 第一次就診至今天數
  3. 過去有無住院紀錄
  4. 各項健康指標的平均/中位值
    資料處理的時候注意不要有 data leakage,比如在建立過去各項指標的平均值時使用了現在或未來的數據,這會產生額外的偏誤讓模型效果過度樂觀。

Again,模型不重要,如果數據處理得夠詳盡確實,使用 Logistic Regression 就可以達成理想的效果了。

感謝分享思路,建議1~3的想法很實用,謝謝您!

我要發表回答

立即登入回答