Day20：基因長度數據檢查與清理

2024 iThome 鐵人賽

DAY 20

自我挑戰組

16th鐵人賽 python 生物醫學基因表現量網路爬蟲

498 瀏覽

今天我將要檢查和清理基因的長度數據。

在進行 RPKM 計算之前，確保基因長度數據的準確性非常重要，RPKM 計算依賴於基因的長度來進行標準化，因此我們需要確保所有基因的長度數據都是合理且準確的。

首先我要檢查數據中的基因長度是否存在異常情況，我需要確保每個基因的長度都大於 0，如果某些基因的長度為 0 或負數，則表示這些數據存在問題，需要進行清理。

invalid_lengths = df[df['Gene Length'] <= 0]
print(f"無效基因長度的記錄數：{len(invalid_lengths)}")

上面這段 code 會篩選出基因長度小於等於 0 的數據，並列出這些無效記錄的數量，這樣我可以快速檢查數據中是否存在異常，接下來，我將清理這些無效的基因數據，以保證 RPKM 計算的準確性。

df = df[df['Gene Length'] > 0]

上面這段 code 會刪除所有基因長度小於等於 0 的數據，這樣可以保證後續計算中的數據都是合理的。

最後我再次檢查清理後的數據，並保存最終的基因長度數據

print(df['Gene Length'].describe())
df.to_excel("清理後基因長度數據.xlsx", index=False)

今天的數據檢查和清理工作非常重要，它確保了基因長度數據是準確且可用的。

系列文

0 人訂閱

完整目錄

熱門推薦

{{ item.channelVendor }} | {{ item.webinarstarted }} |

直播中

立即登入留言

參賽組數

27 組

團體組數

1 組

累計文章數

11 篇

最後報名日

9/15

IT邦幫忙