iT邦幫忙

2024 iThome 鐵人賽

DAY 3
0

為了完成此次挑戰,必須先有基因表達數據以供分析,因此我下載了來自 NCBI GEO 之基因數據以供後續使用。

NCBI GEO 介紹

NCBI GEO 是美國國家生物技術資訊中心 (National Center for Biotechnology Information, NCBI)的基因表達綜合存儲庫 (Gene Expression Omnibus, GEO),是一個公共的基因組學數據存儲庫,具有大量基因表達數據,此次挑戰所需的受COVID-19感染之肺基因表達數據則從此處提取。[網址連結]

提取 Excel 數據

在這次處理基因數據的過程中,第一步是從下載之 Excel 文件中讀取基因代號和讀數。這些數據將成為我們後續轉換和計算的基礎數據。因此,今天將學習如何使用 pandas 來讀取基因數據。

首先,我們需要將 Excel 文件中的基因代號(GeneSymbol)提取出來,並將其存儲在一個列表中。下面是具體的 Code:

import pandas as pd
file_path = r".xlsx" #裡面放我的檔案路徑
df = pd.read_excel(file_path)
gene_symbols = df['GeneSymbol'].tolist()

在這段 code 中,首先使用 pandasread_excel 函數讀取指定路徑的 Excel 文件,並將其內容存儲在一個 DataFrame 中。接著,我使用 DataFrametolist 函數提取 Gene Symbol 列中的所有基因代號,並將其存儲到一個列表中,供後續處理使用。為了確保數據讀取正確,我使用了 head 函數來檢查前幾行數據是否符合預期:

print(df.head())  # 查看前幾行數據,就輸入幾行

pandasDataFrame 結構類似於 Excel 中的表格,這讓我能夠方便地操作基因數據,例如篩選、過濾、計算等操作。這一步的數據讀取工作為能夠幫助接下來的基因代號轉換。


上一篇
Day2:環境配置與依賴安裝
下一篇
Day4:建構基因代號轉換工具
系列文
從零基礎到實戰:利用網頁爬蟲結合 RPKM 算法計算 COVID-19 感染者肺部基因表達量25
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言