Day24：儲存最終數據並進行清理

2024 iThome 鐵人賽

DAY 24

自我挑戰組

16th鐵人賽 python 生物醫學基因表現量網路爬蟲

534 瀏覽

今天我將集中於清理之前計算出的 RPKM 結果，並保存最終的基因表現數據，因為在進行生物學數據分析時，清理異常值是必不可少的步驟，這能夠幫助我確保結果的準確性。

首先我要檢查基因長度是否有異常值，例如基因長度為負數或 0 的情況。這些異常數據可能會影響 RPKM 的計算，因此需要進行清理。

# 清理基因長度異常的數據
df_rpkm_clean = df_rpkm[df_rpkm['Gene Length'] > 0]

# 檢查清理後的數據
print(df_rpkm_clean.describe())

這段 Code 會刪除所有基因長度小於等於 0 的數據，這樣可以確保所有基因的長度都是合理的接著我使用 describe() 函數來檢查清理後數據的統計訊息，確認數據的合理性。

接下來我把清理後的數據保存到一個新的 Excel 文件中：

# 保存清理後的 RPKM 數據
df_rpkm_clean.to_excel("清理後RPKM結果.xlsx", index=False)

這樣我就可以確保數據的值，也能確定分析的結果不會是雜亂無章的。

系列文

0 人訂閱

完整目錄

熱門推薦

{{ item.channelVendor }} | {{ item.webinarstarted }} |

直播中

立即登入留言