Day8：基於 Ensembl Gene ID 構建基因詳細頁面的 URL

2024 iThome 鐵人賽

DAY 8

自我挑戰組

從零基礎到實戰：利用網頁爬蟲結合 RPKM 算法計算 COVID-19 感染者肺部基因表達量系列第 8 篇

16th鐵人賽 #python #生物醫學 #基因表現量 #網頁爬蟲

KE-LIN

2024-09-22 23:00:55

528 瀏覽

分享至

今天我要建構基因詳細頁面的 URL 模板，用以後續爬蟲。

在進行網頁爬蟲時，必須準確的知道要爬取的網頁之 URL 構建方式；今天我將使用每個基因的 Ensembl Gene ID，生成對應的基因詳細頁面 URL，這樣就能夠進行爬取並提取基因的位置訊息。

在 Ensembl 網站上，每個基因的詳細頁面 URL 都有著特定的格式，通常這些 URL 包含基因的 Ensembl Gene ID 作為唯一標識符；幾例來說，Ensembl Gene ID 為 ENSG00000139618 的基因，其詳細頁面 URL 為：

https://asia.ensembl.org/Homo_sapiens/Gene/Summary?db=core;g=ENSG00000139618

因此，我可以使用這個 URL 模板，將每個基因的 Ensembl Gene ID 動態插入到 URL 中，從而生成每個基因的詳細頁面連結，具體 Code 如下：

base_url = "https://asia.ensembl.org/Homo_sapiens/Gene/Summary?db=core;g="

# 以 Ensembl Gene ID 生成每個基因的詳細頁面 URL
df['URL'] = base_url + df['ensembl_gene_id']

上面這段 code 中，定義了一個基礎 URL，並使用 + 操作符將每個基因的 ensembl_gene_id 拼接到 URL 後面，這樣就可以為每個基因生成對應的詳細頁面連結。為了確保生成的 URL 正確，我檢查了前面幾個 URL：

print(df['URL'].head())

這一步的 URL 構建是爬取基因詳細訊息的前置過程，通過準確生成每個基因的 URL，就可以進一步使用爬蟲來抓取基因的位置訊息，並最終完成基因長度的計算。

Day7：理解 Ensembl 網站的基因詳細頁面結構

Day9：非同步爬蟲爬取基因詳細頁面

系列文

從零基礎到實戰：利用網頁爬蟲結合 RPKM 算法計算 COVID-19 感染者肺部基因表達量共 25 篇

RSS系列文訂閱系列文

0 人訂閱

完整目錄

熱門推薦

{{ item.channelVendor }} | {{ item.webinarstarted }} |

直播中

尚未有邦友留言

立即登入留言

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 17th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# linux windows server css react

IT邦幫忙

從零基礎到實戰：利用網頁爬蟲結合 RPKM 算法計算 COVID-19 感染者肺部基因表達量系列 第 8 篇