Day2：環境配置與依賴安裝

2024 iThome 鐵人賽

DAY 2

自我挑戰組

從零基礎到實戰：利用網頁爬蟲結合 RPKM 算法計算 COVID-19 感染者肺部基因表達量系列第 2 篇

16th鐵人賽 #python #生物醫學 #基因表現量 #網路爬蟲

KE-LIN

2024-09-16 17:49:26

667 瀏覽

分享至

在正式開始之前，我需要先建立開發環境並安裝必要的依賴庫。為了成功處理基因數據，構建一個穩定且高效的開發環境是關鍵。因此，今天的重點將放在環境設置及依賴庫的安裝上，這些準備工作將為後續的基因數據處理、非同步爬蟲及基因表現量計算打好基礎。

首先，我會安裝 Python，這是本次的主要開發工具。我從 Python 官方網站下載並安裝最新版 Python，接著使用 VS Code 作為主要的開發環境。VS Code 是一款輕量且功能強大的編輯器，能夠滿足開發過程中的各項需求。環境設置完成後，我將使用 pip 指令安裝一系列必要的 Python 庫，如下：

pip install pandas biomart aiohttp beautifulsoup4 openpyxl

基本依賴庫介紹：

pandas：這是一個強大的數據處理工具，我們將使用它來讀取 Excel 文件並處理基因數據。pandas 提供了靈活的數據結構，如 DataFrame，可以用來處理大規模的數據。
biomaRt：用來連接 Ensembl BioMart 數據庫，以便我們能夠將基因 Symbol ID 轉換為 Ensembl Gene ID。這個庫提供了方便的 API 來進行基因數據的查詢和檢索。
aiohttp：這是一個非同步 HTTP 客戶端，適合大規模並行爬取網頁數據。在我們的項目中，將用來爬取每個基因的詳細頁面數據。
beautifulsoup4：用來解析 HTML 網頁，我們將使用這個庫來提取基因的起始和結束位置。
openpyxl：用來讀取和寫入 Excel 文件，我們將使用這個庫來保存最終的 RPKM 計算結果。