經過前面 19 天的學習,我們系統地探討了機器學習的每一個步驟,從問題定義到模型部署。現在,我們即將進入實作階段,將所學的知識應用到真實的機器學習題目中。本章將重點介紹如何在實際專案中進行問題定義和數據收集,為後續的數據處理和模型訓練打下基礎。
我們過去了解到,啟動任何機器學習專案前,必須先明確目標、了解業務背景、進行問題分解並驗證假設。隨著醫療技術的進步和數據的快速增長,如何利用這些數據來改進健康管理和治療效果成為當前的一大挑戰。因此,後續的實作將聚焦於醫療相關議題,深入探討如何在實作中進行有效的問題定義與數據收集。
在這個專案中,我們將針對住院期間醫學檢查結果的預測進行實戰,目標是利用病人在住院期間的數據來預測其醫學檢查結果。我們需要根據病人的歷史檢查數據、醫療記錄等資訊來進行預測。
在醫療領域,我們需要與醫生、醫療人員交流。通過與這些專家合作,我們可以了解問題的實際需求及其複雜性。我們要預測病人住院期間的檢查結果,我們需要了解哪些因素會影響檢查結果的異常,如年齡、性別、生活習慣等。
在醫療預測專案中,將大問題分解為具體的子問題可以幫助我們更有條理地進行分析。具體步驟包括:
在進行問題定義時,我們需要做出一些基本假設,並在可能的情況下進行初步驗證:
通過與醫療專家討論這些假設的合理性,我們可以確保問題定義和模型設計是基於正確的前提。這樣的驗證有助於避免基於錯誤假設進行不恰當的分析。
在確定了問題定義的基本框架後,我們將這些步驟應用於實際的數據集。針對病人在住院期間的數據,我們可以從內部及外部來源收集資料。這可以通過與合作的醫療機構索取數據,或查找公開資料(例如 WHO 公開數據)來完成。由於資料收集是一個需要長時間溝通和確認的過程,我們需要探討哪些參數會影響預測結果(如檢查結果的正常與否),在實戰中,我們將以 Kaggle 上的健康數據集(Healthcare Dataset 2019-2024)為例進行實作。這個數據集利用 Python 的 Faker 函式庫生成,其結構和屬性密切反映了實際醫療記錄。數據集為 CSV 檔,已經收集了多個影響預測結果的關鍵參數,並且收案量已達 5 萬 5 千 5 百筆。以下是主要參數的解釋:
在本章中,我們介紹了有效的問題定義,並基於健康數據集進行數據收集。確保問題定義具體明確,並進行數據收集。接下來,我們將進一步進行初步資料探勘。
[DALL-E 示意圖]
資料來源:
https://www.kaggle.com/datasets/prasad22/healthcare-dataset/data