今天的工作重點是確認並計算樣本的總讀數,這是 RPKM 算法中非常重要的一部分,總讀數是每個樣本中所有基因的讀數總和,它用來標準化基因的表現量,從而使不同樣本之間的數據具有可比性。
在實際的過程中,總讀數的計算相對簡單,因前面已經從 Excel 文件中提取了樣本的讀數數據
以下是具體的 Code:
# 提取樣本的讀數數據,假設讀數從第二列到第89列
read_counts = df.iloc[:, 1:89]
# 接著計算每個樣本的總讀數
total_reads = read_counts.sum(axis=0)
# 最後輸出總讀數
print(total_reads)
上面我使用 pandas
的 sum()
函數來計算每個樣本的總讀數,axis=0
表示沿著列進行總和計算,也就是將每個樣本中的所有基因讀數加在一起。
接著我利用 describe()
函數輸出總讀數的統計訊息,包括平均值、最小值、最大值等檢查這些總讀數的範圍和統計訊息,已確保數據的合理性:
# 檢查總讀數的統計信息
print(total_reads.describe())
以上我已經計算完基因的總讀數,並利用公式確保數據沒有異常。