Day9：非同步爬蟲爬取基因詳細頁面

2024 iThome 鐵人賽

DAY 9

自我挑戰組

從零基礎到實戰：利用網頁爬蟲結合 RPKM 算法計算 COVID-19 感染者肺部基因表達量系列第 9 篇

16th鐵人賽 #python #生物醫學 #基因表現量 #網頁爬蟲

KE-LIN

2024-09-23 21:16:30

165 瀏覽

分享至

在處理大量基因數據時，使用同步爬蟲效率會很低，因此今天我將使用 aiohttp 來執行非同步爬蟲，這樣可以加速數據抓取過程。非同步爬蟲允許同時發送多個請求，而不必等待每個請求完成後再發送下一個請求，從而大幅提高抓取速度。

aiohttp 是一個非同步 HTTP 端，專為大規模並行請求設計，因此藉由 asyncio 庫，可以高效綠的爬取基因的詳細頁面。

首先我定義了一個函數，用於抓取每個基因的詳細頁面。這個函數將會發送 HTTP 請求，並返回頁面內容：

import aiohttp
import asyncio
async def fetch_gene_page(session, url):
    async with session.get(url) as response:
        return await response.text()

上面這段 code 中，我定義了一個名為 fetch_gene_page 的非同步函數，它使用 aiohttp 的 session.get() 方法來發送 HTTP 請球；請求完成後，使用 await 來等待並返回頁面內容。接下來，定義另一個函數來批量抓取所有基因的詳細頁面。這個函數將會創建多個抓取任務，並使用 asyncio.gather() 並行執行它們：

async def fetch_all_gene_pages(urls):
    async with aiohttp.ClientSession() as session:
        tasks = [fetch_gene_page(session, url) for url in urls]
        pages = await asyncio.gather(*tasks)
        return pages

這個函數接收一個 URL 列表，並使用 aiohttp.ClientSession() 創建一個 HTTP 客戶端，然後為每個 URL 創建一個抓取任務，並使用 asyncio.gather() 同時執行所有任務。最後，我們將 URL 列表傳入，並啟動抓取任務：

urls = df['URL'].tolist()  # 生成所有基因的 URL 列表
gene_pages = asyncio.run(fetch_all_gene_pages(urls))  # 執行非同步爬蟲

這樣就能夠高效地抓取所有基因的詳細頁面，並將其存儲到變量 gene_pages 中；這一步為後續的數據解析奠定了基礎，我將在接下來的步驟中對這些抓取到的頁面進行解析，提取基因的位置訊息。

Day8：基於 Ensembl Gene ID 構建基因詳細頁面的 URL

Day10：爬取網頁的基因訊息

系列文

從零基礎到實戰：利用網頁爬蟲結合 RPKM 算法計算 COVID-19 感染者肺部基因表達量共 25 篇

RSS系列文訂閱系列文

0 人訂閱

完整目錄

熱門推薦

{{ item.channelVendor }} | {{ item.webinarstarted }} |

直播中

尚未有邦友留言

立即登入留言

參賽組數

902 組

團體組數

37 組

累計文章數

19396 篇

完賽人數

530 人

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 17th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# linux windows server css react

IT邦幫忙

從零基礎到實戰：利用網頁爬蟲結合 RPKM 算法計算 COVID-19 感染者肺部基因表達量系列 第 9 篇