iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

0 Like 0 留言 711 瀏覽

鐵人賽自我挑戰組 DAY 4

從零基礎到實戰：利用網頁爬蟲結合 RPKM 算法計算 COVID-19 感染者肺部基因表達量系列第 4 篇

技術 Day4：建構基因代號轉換工具

在後續的網頁爬蟲中，我利用 Ensembl Gene ID 作為數據的基礎，因此我需要先將從 NCBI GEO 下載的基因 Symbol ID 進行轉換。轉換...

KE-LIN ‧ 2024-09-18

0 Like 0 留言 617 瀏覽

鐵人賽自我挑戰組 DAY 2

從零基礎到實戰：利用網頁爬蟲結合 RPKM 算法計算 COVID-19 感染者肺部基因表達量系列第 2 篇

技術 Day2：環境配置與依賴安裝

在正式開始之前，我需要先建立開發環境並安裝必要的依賴庫。為了成功處理基因數據，構建一個穩定且高效的開發環境是關鍵。因此，今天的重點將放在環境設置及依賴庫的安裝上...

KE-LIN ‧ 2024-09-16

0 Like 0 留言 503 瀏覽

鐵人賽自我挑戰組 DAY 8

從零基礎到實戰：利用網頁爬蟲結合 RPKM 算法計算 COVID-19 感染者肺部基因表達量系列第 8 篇

技術 Day8：基於 Ensembl Gene ID 構建基因詳細頁面的 URL

今天我要建構基因詳細頁面的 URL 模板，用以後續爬蟲。在進行網頁爬蟲時，必須準確的知道要爬取的網頁之 URL 構建方式；今天我將使用每個基因的 Ensemb...

KE-LIN ‧ 2024-09-22

0 Like 0 留言 428 瀏覽

鐵人賽自我挑戰組 DAY 3

從零基礎到實戰：利用網頁爬蟲結合 RPKM 算法計算 COVID-19 感染者肺部基因表達量系列第 3 篇

技術 Day3：讀取 Excel 文件與提取基因代號

為了完成此次挑戰，必須先有基因表達數據以供分析，因此我下載了來自 NCBI GEO 之基因數據以供後續使用。 NCBI GEO 介紹 NCBI GEO 是美國國...

KE-LIN ‧ 2024-09-17

0 Like 0 留言 380 瀏覽

鐵人賽自我挑戰組 DAY 7

從零基礎到實戰：利用網頁爬蟲結合 RPKM 算法計算 COVID-19 感染者肺部基因表達量系列第 7 篇

技術 Day7：理解 Ensembl 網站的基因詳細頁面結構

今天我將專注於理解 Ensembl 網站上基因詳細頁面的結構，這對於後續爬取基因的起始和結束位置至關重要。在 Ensembl 網站的基因詳細頁面中，包含了基因的...

KE-LIN ‧ 2024-09-21

0 Like 0 留言 377 瀏覽

鐵人賽自我挑戰組 DAY 6

從零基礎到實戰：利用網頁爬蟲結合 RPKM 算法計算 COVID-19 感染者肺部基因表達量系列第 6 篇

技術 Day6：清理數據並驗證基因代號轉換結果

今天主要著重在清理轉換後的數據，並進行驗證。基因代號轉換後，我需要對結果進行清理和驗證，因為有些基因雖然有 Symbol ID，但其在 Ensembl 上並未...

KE-LIN ‧ 2024-09-20

0 Like 0 留言 355 瀏覽

鐵人賽自我挑戰組 DAY 5

從零基礎到實戰：利用網頁爬蟲結合 RPKM 算法計算 COVID-19 感染者肺部基因表達量系列第 5 篇

技術 Day5：執行基因代號轉換

今天我要進行 Symbol ID 到 Ensembl Gene ID 的轉換。 Day4 已設置好基因代號轉換工具，接下來我將使用 Ensembl BioMar...

KE-LIN ‧ 2024-09-19

0 Like 0 留言 348 瀏覽

鐵人賽自我挑戰組 DAY 9

從零基礎到實戰：利用網頁爬蟲結合 RPKM 算法計算 COVID-19 感染者肺部基因表達量系列第 9 篇

技術 Day9：非同步爬蟲爬取基因詳細頁面

在處理大量基因數據時，使用同步爬蟲效率會很低，因此今天我將使用 aiohttp 來執行非同步爬蟲，這樣可以加速數據抓取過程。非同步爬蟲允許同時發送多個請求，而不...

KE-LIN ‧ 2024-09-23

0 Like 0 留言 323 瀏覽

鐵人賽自我挑戰組 DAY 11

從零基礎到實戰：利用網頁爬蟲結合 RPKM 算法計算 COVID-19 感染者肺部基因表達量系列第 11 篇

技術 Day11：儲存解析結果並進行驗證

在成功爬取和解析基因的起始與結束位置之後，我需要將這些數據保存下來，並進行驗證，以確保數據完整且無誤，今天的目標是將解析出的基因位置信息儲存到一個 Excel...

KE-LIN ‧ 2024-09-25