從零基礎到實戰：利用網頁爬蟲結合 RPKM 算法計算 COVID-19 感染者肺部基因表達量

KE-LIN (klchen)

iT邦見習生 ‧ 點數 120

台灣聚合化學品股份有限公司

3531

累計瀏覽數

0人

在追蹤

站內簡訊追蹤

鐵人檔案

2024 iThome 鐵人賽

回列表

自我挑戰組

從零基礎到實戰：利用網頁爬蟲結合 RPKM 算法計算 COVID-19 感染者肺部基因表達量系列

在生物資訊學中，基因表現量分析是理解基因功能和細胞行為的關鍵步驟。隨著基因數據的快速增長，如何高效處理和分析海量基因數據，已經成為現代生物學研究中的一大挑戰。此次挑戰將聚焦於運用 Python 實現基因代號轉換，並基於 RPKM（每千鹼基轉錄本每百萬比對讀取數，Reads Per Kilobase of transcript, per Million mapped reads）計算基因表現量，以提升基因數據分析的效率。

參賽天數 24 天｜共 25 篇文章｜ 0 人訂閱訂閱系列文 RSS系列文

0 Like 0 留言 413 瀏覽

DAY 1

Day1：自我挑戰之前言與目標概述

哈囉~大家好~第一次參與 IT 鐵人賽，好緊張啊~ 挑戰目標這次挑戰的核心是透過 Python 爬取基因相關資訊，並結合 RPKM（Reads Per Kil...

2024-09-15 ‧ 由 KE-LIN 分享

0 Like 0 留言 501 瀏覽

DAY 2

Day2：環境配置與依賴安裝

在正式開始之前，我需要先建立開發環境並安裝必要的依賴庫。為了成功處理基因數據，構建一個穩定且高效的開發環境是關鍵。因此，今天的重點將放在環境設置及依賴庫的安裝上...

2024-09-16 ‧ 由 KE-LIN 分享

0 Like 0 留言 340 瀏覽

DAY 3

Day3：讀取 Excel 文件與提取基因代號

為了完成此次挑戰，必須先有基因表達數據以供分析，因此我下載了來自 NCBI GEO 之基因數據以供後續使用。 NCBI GEO 介紹 NCBI GEO 是美國國...

2024-09-17 ‧ 由 KE-LIN 分享

0 Like 0 留言 586 瀏覽

DAY 4

Day4：建構基因代號轉換工具

在後續的網頁爬蟲中，我利用 Ensembl Gene ID 作為數據的基礎，因此我需要先將從 NCBI GEO 下載的基因 Symbol ID 進行轉換。轉換...

2024-09-18 ‧ 由 KE-LIN 分享

0 Like 0 留言 277 瀏覽

DAY 5

Day5：執行基因代號轉換

今天我要進行 Symbol ID 到 Ensembl Gene ID 的轉換。 Day4 已設置好基因代號轉換工具，接下來我將使用 Ensembl BioMar...

2024-09-19 ‧ 由 KE-LIN 分享

0 Like 0 留言 294 瀏覽

DAY 6

Day6：清理數據並驗證基因代號轉換結果

今天主要著重在清理轉換後的數據，並進行驗證。基因代號轉換後，我需要對結果進行清理和驗證，因為有些基因雖然有 Symbol ID，但其在 Ensembl 上並未...

2024-09-20 ‧ 由 KE-LIN 分享

0 Like 0 留言 289 瀏覽

DAY 7

Day7：理解 Ensembl 網站的基因詳細頁面結構

今天我將專注於理解 Ensembl 網站上基因詳細頁面的結構，這對於後續爬取基因的起始和結束位置至關重要。在 Ensembl 網站的基因詳細頁面中，包含了基因的...

2024-09-21 ‧ 由 KE-LIN 分享

0 Like 0 留言 417 瀏覽

DAY 8

Day8：基於 Ensembl Gene ID 構建基因詳細頁面的 URL

今天我要建構基因詳細頁面的 URL 模板，用以後續爬蟲。在進行網頁爬蟲時，必須準確的知道要爬取的網頁之 URL 構建方式；今天我將使用每個基因的 Ensemb...

2024-09-22 ‧ 由 KE-LIN 分享

0 Like 0 留言 253 瀏覽

DAY 9

Day9：非同步爬蟲爬取基因詳細頁面

在處理大量基因數據時，使用同步爬蟲效率會很低，因此今天我將使用 aiohttp 來執行非同步爬蟲，這樣可以加速數據抓取過程。非同步爬蟲允許同時發送多個請求，而不...

2024-09-23 ‧ 由 KE-LIN 分享

0 Like 0 留言 307 瀏覽

DAY 10

Day10：爬取網頁的基因訊息

今天我要從昨日定義之頁面中爬取基因的起始與結束位置，這些位置訊息會用來計算基因表現量，而在此我將使用 BeautifulSoup 來解析爬取到的 HTML 頁面...

2024-09-24 ‧ 由 KE-LIN 分享

KE-LIN的鐵人檔案

KE-LIN的收藏

KE-LIN的追蹤

KE-LIN的Like

KE-LIN的紀錄

KE-LIN的訂閱列表

鐵人檔案

從零基礎到實戰：利用網頁爬蟲結合 RPKM 算法計算 COVID-19 感染者肺部基因表達量 系列

標記使用者

從零基礎到實戰：利用網頁爬蟲結合 RPKM 算法計算 COVID-19 感染者肺部基因表達量系列