為了完成此次挑戰,必須先有基因表達數據以供分析,因此我下載了來自 NCBI GEO 之基因數據以供後續使用。
NCBI GEO 是美國國家生物技術資訊中心 (National Center for Biotechnology Information, NCBI)的基因表達綜合存儲庫 (Gene Expression Omnibus, GEO),是一個公共的基因組學數據存儲庫,具有大量基因表達數據,此次挑戰所需的受COVID-19感染之肺基因表達數據則從此處提取。[網址連結]。
在這次處理基因數據的過程中,第一步是從下載之 Excel 文件中讀取基因代號和讀數。這些數據將成為我們後續轉換和計算的基礎數據。因此,今天將學習如何使用 pandas
來讀取基因數據。
首先,我們需要將 Excel 文件中的基因代號(GeneSymbol)提取出來,並將其存儲在一個列表中。下面是具體的 Code:
import pandas as pd
file_path = r".xlsx" #裡面放我的檔案路徑
df = pd.read_excel(file_path)
gene_symbols = df['GeneSymbol'].tolist()
在這段 code 中,首先使用 pandas
的 read_excel
函數讀取指定路徑的 Excel 文件,並將其內容存儲在一個 DataFrame
中。接著,我使用 DataFrame
的 tolist
函數提取 Gene Symbol 列中的所有基因代號,並將其存儲到一個列表中,供後續處理使用。為了確保數據讀取正確,我使用了 head
函數來檢查前幾行數據是否符合預期:
print(df.head()) # 查看前幾行數據,就輸入幾行
pandas
的 DataFrame
結構類似於 Excel 中的表格,這讓我能夠方便地操作基因數據,例如篩選、過濾、計算等操作。這一步的數據讀取工作為能夠幫助接下來的基因代號轉換。