iT邦幫忙

2024 iThome 鐵人賽

DAY 24
0

今天我將集中於清理之前計算出的 RPKM 結果,並保存最終的基因表現數據,因為在進行生物學數據分析時,清理異常值是必不可少的步驟,這能夠幫助我確保結果的準確性。

首先我要檢查基因長度是否有異常值,例如基因長度為負數或 0 的情況。這些異常數據可能會影響 RPKM 的計算,因此需要進行清理。

# 清理基因長度異常的數據
df_rpkm_clean = df_rpkm[df_rpkm['Gene Length'] > 0]

# 檢查清理後的數據
print(df_rpkm_clean.describe())

這段 Code 會刪除所有基因長度小於等於 0 的數據,這樣可以確保所有基因的長度都是合理的接著我使用 describe() 函數來檢查清理後數據的統計訊息,確認數據的合理性。

接下來我把清理後的數據保存到一個新的 Excel 文件中:

# 保存清理後的 RPKM 數據
df_rpkm_clean.to_excel("清理後RPKM結果.xlsx", index=False)

這樣我就可以確保數據的值,也能確定分析的結果不會是雜亂無章的。


上一篇
Day23:準確計算基因的 RPKM 值
下一篇
Day26:驗證最終數據的範圍與分布
系列文
從零基礎到實戰:利用網頁爬蟲結合 RPKM 算法計算 COVID-19 感染者肺部基因表達量25
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言