iT邦幫忙

網路爬蟲相關文章
共有 149 則文章
鐵人賽 DevOps DAY 29

技術 鐵人賽怕忘記發文?讓 GitHub Actions 每小時提醒你!

倒數第二天了,各位今年有參加鐵人賽嗎?記得去年寫【不用庫 也能酷 - 玩轉 CSS & Js 特效】的時候緊張到好幾天晚上做惡夢夢到忘記發文,不過今年我...

鐵人賽 AI/ ML & Data DAY 29

技術 [Day 29] 使用爬蟲技術蒐集圖片

前言 在準備訓練資料時,可能會需要蒐集大量影像,在網頁上瀏覽到需要的影像時,最直接的方法為一張張手動儲存,但如果想要大量儲存,例如一整個頁面的影像都需要的話,這...

鐵人賽 自我挑戰組 DAY 24

技術 Day24:儲存最終數據並進行清理

今天我將集中於清理之前計算出的 RPKM 結果,並保存最終的基因表現數據,因為在進行生物學數據分析時,清理異常值是必不可少的步驟,這能夠幫助我確保結果的準確性。...

鐵人賽 自我挑戰組 DAY 23

技術 Day23:準確計算基因的 RPKM 值

今天我要把之前計算出的 RPKM 值保存到 Excel 文件中,並進行驗證,以確保數據的正確性和完整性。 首先我將 RPKM 的計算結果與原始的基因數據(例如基...

鐵人賽 DevOps DAY 22

技術 特選簡章 Discord 通知 - 爬蟲腳本與數據處理

「讀書人的事,能算偷麼?」孔乙己如果是使用 GitHub Actions 運行爬蟲腳本,就不會被人發現還打斷腳了。 在這篇教程中,我們將探討如何使用 Git...

鐵人賽 自我挑戰組 DAY 22

技術 Day22:實際計算樣本的總讀數

今天的工作重點是確認並計算樣本的總讀數,這是 RPKM 算法中非常重要的一部分,總讀數是每個樣本中所有基因的讀數總和,它用來標準化基因的表現量,從而使不同樣本之...

鐵人賽 Python DAY 22

技術 [Day21] Python專案 - 爬蟲程式 - (3) 網路世界的遊行俠(擷取基本文件、動態網站、Excel 爬蟲)

目標 在完成前面兩章的基本知識說明後想要帶大家去抓比較真實網頁情境可以把這些技術概括 真實場景常用到的套件 標題 技術說明 目標 HTTP Re...

鐵人賽 Python DAY 21

技術 [Day20] Python專案 - 爬蟲程式 - (2) 擷取你的需求資料(瀏覽器或裝置的意義)

目標 今天會帶大家使用 request json Beautiful Soup 嘗試擷取簡單的網頁資料 麻煩大家先透過pip install...

鐵人賽 Python DAY 20

技術 [Day19] Python專案 - 爬蟲程式 - (1) 擷取資料前的武器鍛造(基礎知識、爬蟲工具、API)

目標 各位學習完資料處理文件資料後,接下來就是要學習如何爬蟲了!大家要思考一下為什麼要使用爬蟲? 其實最主要的目的,就是要從別人的資料幹過來分析 網路爬蟲其...

鐵人賽 自我挑戰組 DAY 21

技術 Day21:理解 RPKM 計算與數據準備

在基因表現量的分析中,RPKM(Reads Per Kilobase of transcript, per Million mapped reads)是用來標準...

鐵人賽 自我挑戰組 DAY 20

技術 Day20:基因長度數據檢查與清理

今天我將要檢查和清理基因的長度數據。 在進行 RPKM 計算之前,確保基因長度數據的準確性非常重要,RPKM 計算依賴於基因的長度來進行標準化,因此我們需要確保...

鐵人賽 自我挑戰組 DAY 19

技術 Day19:整理最終爬取的基因數據

今天我將集中精力整理之前爬取到的所有基因數據,並將他保存為最終結果文件,先前我已經成功抓取了每個基因的詳細頁面,並提取了基因的起始與結束位置,現在我需要將這些數...

鐵人賽 自我挑戰組 DAY 18

技術 Day18:優化爬蟲性能與數據處理流程

今天的目標是進一步優化爬蟲性能,並簡化數據處理流程,我將對網絡請求的並發進行控制,確保在處理大量數據時系統不會過載,同時我對數據處理過程進行簡化,減少不必要的操...

鐵人賽 自我挑戰組 DAY 17

技術 Day17:處理缺失值與異常數據

在數據處理的過程中,清理數據是非常重要的一步,今天我將著重於處理數據中的缺失值與異常數據,這些數據可能是由於爬蟲過程中的解析錯誤導致的,因此需要再進行進一步的分...

鐵人賽 自我挑戰組 DAY 16

技術 Day16:儲存爬取的基因位置訊息

今天我將正式保存之前爬取和解析的基因位置訊息,並進行數據檢查,確保所有數據的完整性,這一步的目的是將整理後的基因位置訊息儲存到一個 Excel 文件中,並為後續...

鐵人賽 自我挑戰組 DAY 15

技術 Day15:整合爬取的基因數據

今天的目標是將所有爬取到的基因數據整合到一個完整的 DataFrame 中,我已經成功爬取了每個基因的詳細頁面,並從中提取了基因的起始與結束位置;現在我需要將這...

鐵人賽 自我挑戰組 DAY 14

技術 Day14:處理爬蟲過程中的異常情況

爬蟲過程中,網路波動或伺服器超時等等的情況是不可避免的,今天我將著重於如何在爬蟲過程中應對這些異常情況,並保證爬蟲的穩定性;通過加入錯誤處理機制,我可以在面對各...

鐵人賽 自我挑戰組 DAY 13

技術 Day13:添加爬蟲日誌記錄與進度追蹤

今天的目標是為爬蟲過程添加日誌記錄和進度追蹤功能。 這些功能能夠幫助我在抓取大量數據時了解整體進度,並在出現錯誤時快速定位問題,原因是因為當處理成千上萬個基因數...

鐵人賽 自我挑戰組 DAY 12

技術 Day12:優化爬蟲的性能與數據抓取效率

今天的任務是進一步優化爬蟲性能,特別是針對大規模數據抓取過程中的效率問題,因此我將對網路請求做一些改進,包括增加並發限制、處理網絡波動以及添加異常處理機制,從而...

鐵人賽 自我挑戰組 DAY 10

技術 Day10:爬取網頁的基因訊息

今天我要從昨日定義之頁面中爬取基因的起始與結束位置,這些位置訊息會用來計算基因表現量,而在此我將使用 BeautifulSoup 來解析爬取到的 HTML 頁面...

鐵人賽 自我挑戰組 DAY 1

技術 Day1:自我挑戰之前言與目標概述

哈囉~大家好~第一次參與 IT 鐵人賽,好緊張啊~ 挑戰目標 這次挑戰的核心是透過 Python 爬取基因相關資訊,並結合 RPKM(Reads Per Kil...

技術 robots.txt 介紹

前言 我的第一篇 IT 邦文章,就來介紹一下最近工作研究的東西吧!我是資訊領域的新手,以前做的偏硬體,後來在做 AI ,發現自己對網頁也很有興趣(反正技術都可互...

技術 網路爬蟲-爬取串流平台熱門週排行前50名歌曲清單

目的:爬取串流平台熱門週排行前50名歌曲清單,以利後續作串流平台的數據分析。 步驟: 匯入需要套件 設定headers模擬人為操作 爬取週排行前50名歌曲清單...

技術 網路爬蟲-氣候變遷災害風險圖臺

我在使用PYTHON爬蟲撈取「氣候變遷災害風險圖臺」的資料時遇到一問題https://dra.ncdr.nat.gov.tw/Frontend/Tools/Sh...

技術 [Python爬蟲] Pandas模組

[Python爬蟲] Pandas 模組 Python 的 Pandas 是一個強大的資料分析工具包,讓你能夠輕鬆地處理和分析結構化數據。以下是一個基本的 P...

技術 [Python爬蟲] 網路爬蟲

網路爬蟲 Python爬蟲是指使用Python程式語言來從網頁上抓取資料的技術。這個過程涉及發送請求到網站,獲取網頁內容,然後解析這些內容以提取有用的資訊。以...

技術 【Day54】ChatGPT幫我完成工作:不會python也能用python爬蟲做出IT邦幫忙自動發文神器

這篇基本上就是 【Python】鐵人賽草稿自動排程發文神器 & line notifiy 這一篇的撰寫過程 我先說一下,我實在不會python倒不是說...

技術 【Day34】ChatGPT請教教我:E2E測試!Cypress!(下)- 實際演練 & 爬蟲?

現學現賣 上一篇學了Cypress的語法與用法直接做幾個簡單的練習吧 練習一: 簡易counter 首先我們自己寫一個簡易的頁面,用data-test 這個屬性...

鐵人賽 Modern Web DAY 8

技術 【DAY08】基本爬蟲聊聊

要抓取保養品的資訊,就要提到爬蟲的技術,去自動化的抓取保養品的相關資料。 什麼是爬蟲(Crawler)? 是一種自動瀏覽全球資訊網的程式 透過http請求對網...

技術 爬蟲 419Error 該如何解決?

如題,小弟爬蟲初學,想練使用者登入登入網站:it邦幫忙有在登入頁面抓取token和cookie了,但依然返回419程式碼如下,麻煩各位大神幫忙,請多多指教 謝謝...