iT邦幫忙

2024 iThome 鐵人賽

DAY 15
0

今天的目標是將所有爬取到的基因數據整合到一個完整的 DataFrame 中,我已經成功爬取了每個基因的詳細頁面,並從中提取了基因的起始與結束位置;現在我需要將這些數據進行整理,並為後續的數據處理和分析做好準備。

今天我需要將所有提取的位置信息和基因代號合併到一個 DataFrame 中,這樣就能夠在一個統一的結構中管理所有基因數據,並方便後續的處理和計算。

import pandas as pd
df = pd.read_excel("基因位置與長度.xlsx")
print(df.head())

在這段 Code 中,我首先重新讀取之前保存的 Excel 文件,並檢查數據的完整性,這樣可以確保我擁有所有基因的起始和結束位置,並且數據格式正確。

接下來我將使用這些位置信息計算每個基因的長度。這個長度將在後續的 RPKM 計算中起到關鍵作用,因為 RPKM 的計算依賴於基因的長度來進行標準化。

df['Gene Length'] = df['End'] - df['Start'] + 1
print(df[['Gene Length']].describe())

在上面這段 Code 中,我根據基因的起始和結束位置計算每個基因的長度,describe() 函數可以幫助檢查基因長度的統計信息,確認數據是否合理。

最後我將這些整合後的數據保存到一個新的 Excel 文件中,以便後續使用:

df.to_excel("最終基因位置信息.xlsx", index=False)

這一步的數據整合和保存為我後續的 RPKM 計算奠定了基礎。通過這個過程,我已經準備好了所有基因的位置信息和長度,接下來我將進一步處理這些數據,並開始進行 RPKM 計算。


上一篇
Day14:處理爬蟲過程中的異常情況
下一篇
Day16:儲存爬取的基因位置訊息
系列文
從零基礎到實戰:利用網頁爬蟲結合 RPKM 算法計算 COVID-19 感染者肺部基因表達量25
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言