這一篇與[day25]的主要差異在於資料集以及應用上的不同,
參考的官方攻略:
https://docs.abzu.ai/docs/tutorials/python/cancer_hcc.html
生物科學家常常搜尋一些生物標誌,
像是參考攻略希望從肝癌患者與正常人之間,
藉由血液中游離的DNA片段甲基化的位置及數量,
來幫助判斷未知的病人是否得到肝癌。
不過你可能會問不是靠侵入式切開來看就知道結果了嗎?
使用侵入式的方式有可能會提高擴散的可能性,
相對來說,使用抽血的方式安全性比較高,但選擇的生物標誌也要夠準才行,
或是綁定更多的生物標誌一起做測試。
獲取資料集:
安裝及載入套件:
資料集已經以 高變異數特徵 才保留的方式清洗過一次,
我們可以看到游離DNA片段位於染色體上的位置以及甲基化的程度數值,
而target 0 代表正常人,1代表患者:
區分訓練集 及 測試集,標籤為target:
開始訓練:
現在能以圖示的方式查看那些游離基因位點與肝癌具有相關性: