今天的目標是將所有爬取到的基因數據整合到一個完整的 DataFrame 中,我已經成功爬取了每個基因的詳細頁面,並從中提取了基因的起始與結束位置;現在我需要將這些數據進行整理,並為後續的數據處理和分析做好準備。
今天我需要將所有提取的位置信息和基因代號合併到一個 DataFrame 中,這樣就能夠在一個統一的結構中管理所有基因數據,並方便後續的處理和計算。
import pandas as pd
df = pd.read_excel("基因位置與長度.xlsx")
print(df.head())
在這段 Code 中,我首先重新讀取之前保存的 Excel 文件,並檢查數據的完整性,這樣可以確保我擁有所有基因的起始和結束位置,並且數據格式正確。
接下來我將使用這些位置信息計算每個基因的長度。這個長度將在後續的 RPKM 計算中起到關鍵作用,因為 RPKM 的計算依賴於基因的長度來進行標準化。
df['Gene Length'] = df['End'] - df['Start'] + 1
print(df[['Gene Length']].describe())
在上面這段 Code 中,我根據基因的起始和結束位置計算每個基因的長度,describe()
函數可以幫助檢查基因長度的統計信息,確認數據是否合理。
最後我將這些整合後的數據保存到一個新的 Excel 文件中,以便後續使用:
df.to_excel("最終基因位置信息.xlsx", index=False)
這一步的數據整合和保存為我後續的 RPKM 計算奠定了基礎。通過這個過程,我已經準備好了所有基因的位置信息和長度,接下來我將進一步處理這些數據,並開始進行 RPKM 計算。