各位前輩們好,想請教關於請教Python程式語言當中關於機器學習預測的方向!
我手邊有一份類似下圖的資料,初步是希望透過類似鳶尾花的模型去做預測~
但是比起鳶尾花的機器學習範例,手邊數據還多了日期的資料,因此想請教前輩們:
假設我有4位患者(123、456、789、987、654),其中2為重複就診(123、456),
每位患者依照"不同日期"到院檢查,
檢視身體"健康指標1~6"與疾病診斷"糖尿病、高血壓、肝臟病、高血脂、心臟病",
直到病情嚴重到需要"住院"結束。
我想預測資料集中的患者們,根據檢查結果,誰有可能也會住院(到此為止,類似鳶尾花),此外,在何時或第幾次檢查時,會有住院的可能(這邊加入日期與患者是誰...找不到相關範例)。
查詢網路相關的範例或kaggle資料集似乎都沒有相關的範本可以參照,因此想請前輩們指點方向,該如何著手或可以參考哪個資料集範本做嘗試,再次感謝願意回答的前輩們!
到院日期 id 身高 體重 年齡 性別 健康指標1 健康指標2 健康指標3 健康指標4 健康指標5 健康指標6 糖尿病 高血壓 肝臟病 高血脂 心臟病 是否住院
20230101 123 161 60 26 m 3.56 40 123 1.2 5.6 84 是 是 否 否 否 否
20230102 123 161 60 26 m 3.56 40 123 1.2 5.6 84 是 是 否 是 否 否
20230103 123 161 60 26 m 3.45 42 122 1.01 5.4 70 是 是 否 是 否 否
20230101 456 172 65 31 f 5.5 29 109 1.6 5.4 81 否 否 否 是 是 否
20230102 456 172 65 31 f 6.12 54 112 1.7 5.01 71 否 否 是 是 是 否
20230201 789 176 91 34 m 4 50 116 2.5 6.1 83 是 是 否 是 否 是
20230201 987 169 84 38 f 3.9 45 117 2.1 6.2 81 否 否 否 是 是 否
20230301 123 161 60 26 m 3.55 39 121 1 5 80 是 是 是 是 否 是
20230301 456 172 65 31 f 4 40 124 1.9 5.8 76 是 否 是 是 是 是
20230401 654 183 71 40 m 5.1 38 128 2 5.4 78 是 是 否 否 否 否
只要可以做 Binary Classification,使用哪種模型不重要。
你需要的是更多的資料處理,尤其是針對時間尺度的變量,比如說:
Again,模型不重要,如果數據處理得夠詳盡確實,使用 Logistic Regression 就可以達成理想的效果了。