iT邦幫忙

2024 iThome 鐵人賽

DAY 20
0

今天我將要檢查和清理基因的長度數據。

在進行 RPKM 計算之前,確保基因長度數據的準確性非常重要,RPKM 計算依賴於基因的長度來進行標準化,因此我們需要確保所有基因的長度數據都是合理且準確的。

首先我要檢查數據中的基因長度是否存在異常情況,我需要確保每個基因的長度都大於 0,如果某些基因的長度為 0 或負數,則表示這些數據存在問題,需要進行清理。

invalid_lengths = df[df['Gene Length'] <= 0]
print(f"無效基因長度的記錄數:{len(invalid_lengths)}")

上面這段 code 會篩選出基因長度小於等於 0 的數據,並列出這些無效記錄的數量,這樣我可以快速檢查數據中是否存在異常,接下來,我將清理這些無效的基因數據,以保證 RPKM 計算的準確性。

df = df[df['Gene Length'] > 0]

上面這段 code 會刪除所有基因長度小於等於 0 的數據,這樣可以保證後續計算中的數據都是合理的。

最後我再次檢查清理後的數據,並保存最終的基因長度數據

print(df['Gene Length'].describe())
df.to_excel("清理後基因長度數據.xlsx", index=False)

今天的數據檢查和清理工作非常重要,它確保了基因長度數據是準確且可用的。


上一篇
Day19:整理最終爬取的基因數據
下一篇
Day21:理解 RPKM 計算與數據準備
系列文
從零基礎到實戰:利用網頁爬蟲結合 RPKM 算法計算 COVID-19 感染者肺部基因表達量25
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言