Day15：整合爬取的基因數據

2024 iThome 鐵人賽

DAY 15

自我挑戰組

16th鐵人賽 python 基因表現量生物醫學網路爬蟲

467 瀏覽

今天的目標是將所有爬取到的基因數據整合到一個完整的 DataFrame 中，我已經成功爬取了每個基因的詳細頁面，並從中提取了基因的起始與結束位置；現在我需要將這些數據進行整理，並為後續的數據處理和分析做好準備。

今天我需要將所有提取的位置信息和基因代號合併到一個 DataFrame 中，這樣就能夠在一個統一的結構中管理所有基因數據，並方便後續的處理和計算。

import pandas as pd
df = pd.read_excel("基因位置與長度.xlsx")
print(df.head())

在這段 Code 中，我首先重新讀取之前保存的 Excel 文件，並檢查數據的完整性，這樣可以確保我擁有所有基因的起始和結束位置，並且數據格式正確。

接下來我將使用這些位置信息計算每個基因的長度。這個長度將在後續的 RPKM 計算中起到關鍵作用，因為 RPKM 的計算依賴於基因的長度來進行標準化。

df['Gene Length'] = df['End'] - df['Start'] + 1
print(df[['Gene Length']].describe())

在上面這段 Code 中，我根據基因的起始和結束位置計算每個基因的長度,describe() 函數可以幫助檢查基因長度的統計信息，確認數據是否合理。

最後我將這些整合後的數據保存到一個新的 Excel 文件中，以便後續使用：

df.to_excel("最終基因位置信息.xlsx", index=False)

這一步的數據整合和保存為我後續的 RPKM 計算奠定了基礎。通過這個過程，我已經準備好了所有基因的位置信息和長度，接下來我將進一步處理這些數據，並開始進行 RPKM 計算。

系列文

0 人訂閱

完整目錄

熱門推薦

{{ item.channelVendor }} | {{ item.webinarstarted }} |

直播中

立即登入留言

參賽組數

27 組

團體組數

1 組

累計文章數

11 篇

最後報名日

9/15

IT邦幫忙