iT邦幫忙

2024 iThome 鐵人賽

DAY 20
0
AI/ ML & Data

征服機器學習的終極秘技系列 第 20

Day 20 - 應用實作練習:問題定義與數據收集

  • 分享至 

  • xImage
  •  

🔍前言

經過前面 19 天的學習,我們系統地探討了機器學習的每一個步驟,從問題定義到模型部署。現在,我們即將進入實作階段,將所學的知識應用到真實的機器學習題目中。本章將重點介紹如何在實際專案中進行問題定義和數據收集,為後續的數據處理和模型訓練打下基礎。

📝問題定義

我們過去了解到,啟動任何機器學習專案前,必須先明確目標、了解業務背景、進行問題分解並驗證假設。隨著醫療技術的進步和數據的快速增長,如何利用這些數據來改進健康管理和治療效果成為當前的一大挑戰。因此,後續的實作將聚焦於醫療相關議題,深入探討如何在實作中進行有效的問題定義與數據收集。

1️⃣ 目標明確化

在這個專案中,我們將針對住院期間醫學檢查結果的預測進行實戰,目標是利用病人在住院期間的數據來預測其醫學檢查結果。我們需要根據病人的歷史檢查數據、醫療記錄等資訊來進行預測。

2️⃣ 了解業務背景

在醫療領域,我們需要與醫生、醫療人員交流。通過與這些專家合作,我們可以了解問題的實際需求及其複雜性。我們要預測病人住院期間的檢查結果,我們需要了解哪些因素會影響檢查結果的異常,如年齡、性別、生活習慣等。

3️⃣ 問題分解

在醫療預測專案中,將大問題分解為具體的子問題可以幫助我們更有條理地進行分析。具體步驟包括:

  • 明確預測對象:將預測目標縮小為「醫學檢查結果」這一具體問題,分為「正常」和「異常」兩類。為了提高預測的精確度,我們需要清楚界定「正常」和「異常」的標準,並確保這些標準在數據中是一致且可度量的
  • 確定數據範圍:收集病人在住院期間的相關數據,包括醫療記錄、檢查結果等,並確保數據的質量和完整性,以便準確地訓練模型和進行分析。
  • 設立具體目標:設定具體的預測目標,例如達到85%以上的預測準確率,以支持臨床決策,通常是醫療人員可接受的量化結果

4️⃣ 假設驗證

在進行問題定義時,我們需要做出一些基本假設,並在可能的情況下進行初步驗證

  • 數據有效性假設:假設病人的歷史數據對預測醫學檢查結果仍然有效,即過去的數據能夠準確地反映未來的結果
  • 特徵影響假設:假設影響檢查結果的主要特徵(如年齡、性別、生活習慣)在不同的病人和檢查情境下保持穩定

通過與醫療專家討論這些假設的合理性,我們可以確保問題定義和模型設計是基於正確的前提。這樣的驗證有助於避免基於錯誤假設進行不恰當的分析。

📊數據收集

在確定了問題定義的基本框架後,我們將這些步驟應用於實際的數據集。針對病人在住院期間的數據,我們可以從內部及外部來源收集資料。這可以通過與合作的醫療機構索取數據,或查找公開資料(例如 WHO 公開數據)來完成。由於資料收集是一個需要長時間溝通和確認的過程,我們需要探討哪些參數會影響預測結果(如檢查結果的正常與否),在實戰中,我們將以 Kaggle 上的健康數據集(Healthcare Dataset 2019-2024)為例進行實作。這個數據集利用 Python 的 Faker 函式庫生成,其結構和屬性密切反映了實際醫療記錄。數據集為 CSV 檔,已經收集了多個影響預測結果的關鍵參數,並且收案量已達 5 萬 5 千 5 百筆。以下是主要參數的解釋:

  • 姓名:與醫療記錄相關的病人姓名
  • 年齡:患者入院時的年齡,以歲為單位
  • 性別:患者的性別,「男」或「女」
  • 血型:患者的血型(例如「A+」、「O-」)
  • 醫療狀況:主要醫療狀況或診斷(例如“糖尿病”、“高血壓”)
  • 入院日期:病人入院到醫療機構的日期
  • 醫師:入院期間負責病人照護的醫師姓名
  • 醫院:收治病患的醫療機構或醫院
  • 保險提供者:患者的保險提供者(例如「Aetna」、「Blue Cross」)
  • 帳單金額:醫療保健服務的帳單金額,以浮點數表示
  • 房間號碼:患者入住的房間號碼
  • 入院類型:入院類型(「緊急」、「非緊急」或「急迫」)
  • 出院日期:從醫療機構出院的日期,根據入院日期和實際天數範圍
  • 藥物:處方或施用的藥物(例如「阿斯匹靈」、「布洛芬」)
  • 檢查結果:住院期間的醫學檢查結果(「正常」、「異常」、「不確定」)

⚠️注意事項

  • 數據質量:確保數據的準確性、完整性、相關性和多樣性
  • 數據隱私:遵守數據隱私法規,保護用戶信息。
  • 問題定義的靈活性:根據初步分析的結果,隨時調整問題定義和目標

🔚結論

在本章中,我們介紹了有效的問題定義,並基於健康數據集進行數據收集。確保問題定義具體明確,並進行數據收集。接下來,我們將進一步進行初步資料探勘。

https://ithelp.ithome.com.tw/upload/images/20240921/20168116k1idbaxy5H.png
[DALL-E 示意圖]

資料來源:
https://www.kaggle.com/datasets/prasad22/healthcare-dataset/data


上一篇
Day 19 - 模型部署:將模型推向生產環境
下一篇
Day 21 - 應用實作練習:資料探勘
系列文
征服機器學習的終極秘技30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言