iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

0 Like 0 留言 66 瀏覽

鐵人賽自我挑戰組 DAY 18

30天的痛並快樂著，系統硬體技術支援轉職AI PM 也正在進行著系列第 18 篇

技術爬蟲

Day 18 Topic：爬蟲話題標籤: #網路爬蟲爬什麼？初來乍到的我，還以為是什麼網路軟體方面的 Bug, 不過說回來確實也有些爭議，因為爬的資料有些也許是...

jimyaow62 ‧ 2025-10-01

0 Like 1 留言 2766 瀏覽

技術請問大家有爬蟲Shopee的經驗嗎？

最近他們升級了風控，感覺還是蠻難的。url = f"https://shopee.tw/api/v4/pdp/get_pc?shop_id={shop...

xianfu ‧ 2025-02-09

0 Like 0 留言 2568 瀏覽

技術 Python 爬蟲系列-爬蟲環境準備+基礎爬蟲教學

如果對 python 爬蟲不了解可以先看這篇 Python 爬蟲基礎介紹0 環境準備（以macOS為例）開啟命令提示字元：1.在 Windows 系統中，可以...

yennefer ‧ 2024-12-12

0 Like 0 留言 2008 瀏覽

鐵人賽 DevOps DAY 29

看好了 GitHub Action，我只示範一次。系列第 29 篇

技術鐵人賽怕忘記發文？讓 GitHub Actions 每小時提醒你！

倒數第二天了，各位今年有參加鐵人賽嗎？記得去年寫【不用庫也能酷 - 玩轉 CSS & Js 特效】的時候緊張到好幾天晚上做惡夢夢到忘記發文，不過今年我...

毛哥EM ‧ 2024-10-13

0 Like 0 留言 583 瀏覽

鐵人賽 AI/ ML & Data DAY 29

輕鬆上手AI專案－影像分類到部署模型系列第 29 篇

技術 [Day 29] 使用爬蟲技術蒐集圖片

前言在準備訓練資料時，可能會需要蒐集大量影像，在網頁上瀏覽到需要的影像時，最直接的方法為一張張手動儲存，但如果想要大量儲存，例如一整個頁面的影像都需要的話，這...

Eunice ‧ 2024-10-12

0 Like 0 留言 356 瀏覽

鐵人賽自我挑戰組 DAY 24

從零基礎到實戰：利用網頁爬蟲結合 RPKM 算法計算 COVID-19 感染者肺部基因表達量系列第 24 篇

技術 Day24：儲存最終數據並進行清理

今天我將集中於清理之前計算出的 RPKM 結果，並保存最終的基因表現數據，因為在進行生物學數據分析時，清理異常值是必不可少的步驟，這能夠幫助我確保結果的準確性。...

KE-LIN ‧ 2024-10-08

0 Like 0 留言 258 瀏覽

鐵人賽自我挑戰組 DAY 23

從零基礎到實戰：利用網頁爬蟲結合 RPKM 算法計算 COVID-19 感染者肺部基因表達量系列第 23 篇

技術 Day23：準確計算基因的 RPKM 值

今天我要把之前計算出的 RPKM 值保存到 Excel 文件中，並進行驗證，以確保數據的正確性和完整性。首先我將 RPKM 的計算結果與原始的基因數據（例如基...

KE-LIN ‧ 2024-10-07

0 Like 0 留言 1303 瀏覽

鐵人賽 DevOps DAY 22

看好了 GitHub Action，我只示範一次。系列第 22 篇

技術特選簡章 Discord 通知 - 爬蟲腳本與數據處理

「讀書人的事，能算偷麼？」孔乙己如果是使用 GitHub Actions 運行爬蟲腳本，就不會被人發現還打斷腳了。在這篇教程中，我們將探討如何使用 Git...

毛哥EM ‧ 2024-10-06

0 Like 0 留言 272 瀏覽

鐵人賽自我挑戰組 DAY 22

從零基礎到實戰：利用網頁爬蟲結合 RPKM 算法計算 COVID-19 感染者肺部基因表達量系列第 22 篇

技術 Day22：實際計算樣本的總讀數

今天的工作重點是確認並計算樣本的總讀數，這是 RPKM 算法中非常重要的一部分，總讀數是每個樣本中所有基因的讀數總和，它用來標準化基因的表現量，從而使不同樣本之...

KE-LIN ‧ 2024-10-06

1 Like 0 留言 1771 瀏覽

鐵人賽 Python DAY 22

從概念到應用：Python實戰開發學習之旅系列第 22 篇

技術 [Day21] Python專案 - 爬蟲程式 - (3) 網路世界的遊行俠(擷取基本文件、動態網站、Excel 爬蟲)

目標在完成前面兩章的基本知識說明後想要帶大家去抓比較真實網頁情境可以把這些技術概括真實場景常用到的套件標題技術說明目標 HTTP Re...

科技狗(柯基狗) ‧ 2024-10-06

1 Like 0 留言 1537 瀏覽

鐵人賽 Python DAY 21

從概念到應用：Python實戰開發學習之旅系列第 21 篇

技術 [Day20] Python專案 - 爬蟲程式 - (2) 擷取你的需求資料(瀏覽器或裝置的意義)

目標今天會帶大家使用 request json Beautiful Soup 嘗試擷取簡單的網頁資料麻煩大家先透過pip install...

科技狗(柯基狗) ‧ 2024-10-05

1 Like 0 留言 2879 瀏覽

鐵人賽 Python DAY 20

從概念到應用：Python實戰開發學習之旅系列第 20 篇

技術 [Day19] Python專案 - 爬蟲程式 - (1) 擷取資料前的武器鍛造(基礎知識、爬蟲工具、API)

目標各位學習完資料處理文件資料後，接下來就是要學習如何爬蟲了!大家要思考一下為什麼要使用爬蟲? 其實最主要的目的，就是要從別人的資料幹過來分析網路爬蟲其...

科技狗(柯基狗) ‧ 2024-10-04

0 Like 0 留言 890 瀏覽

鐵人賽自我挑戰組 DAY 21

從零基礎到實戰：利用網頁爬蟲結合 RPKM 算法計算 COVID-19 感染者肺部基因表達量系列第 21 篇

技術 Day21：理解 RPKM 計算與數據準備

在基因表現量的分析中，RPKM（Reads Per Kilobase of transcript, per Million mapped reads）是用來標準...

KE-LIN ‧ 2024-10-05

0 Like 0 留言 324 瀏覽

鐵人賽自我挑戰組 DAY 20

從零基礎到實戰：利用網頁爬蟲結合 RPKM 算法計算 COVID-19 感染者肺部基因表達量系列第 20 篇

技術 Day20：基因長度數據檢查與清理

今天我將要檢查和清理基因的長度數據。在進行 RPKM 計算之前，確保基因長度數據的準確性非常重要，RPKM 計算依賴於基因的長度來進行標準化，因此我們需要確保...

KE-LIN ‧ 2024-10-04

0 Like 0 留言 379 瀏覽

鐵人賽自我挑戰組 DAY 19

從零基礎到實戰：利用網頁爬蟲結合 RPKM 算法計算 COVID-19 感染者肺部基因表達量系列第 19 篇

技術 Day19：整理最終爬取的基因數據

今天我將集中精力整理之前爬取到的所有基因數據，並將他保存為最終結果文件，先前我已經成功抓取了每個基因的詳細頁面，並提取了基因的起始與結束位置，現在我需要將這些數...

KE-LIN ‧ 2024-10-03

0 Like 0 留言 311 瀏覽

鐵人賽自我挑戰組 DAY 18

從零基礎到實戰：利用網頁爬蟲結合 RPKM 算法計算 COVID-19 感染者肺部基因表達量系列第 18 篇

技術 Day18：優化爬蟲性能與數據處理流程

今天的目標是進一步優化爬蟲性能，並簡化數據處理流程，我將對網絡請求的並發進行控制，確保在處理大量數據時系統不會過載，同時我對數據處理過程進行簡化，減少不必要的操...

KE-LIN ‧ 2024-10-02

0 Like 0 留言 437 瀏覽

鐵人賽自我挑戰組 DAY 17

從零基礎到實戰：利用網頁爬蟲結合 RPKM 算法計算 COVID-19 感染者肺部基因表達量系列第 17 篇

技術 Day17：處理缺失值與異常數據

在數據處理的過程中，清理數據是非常重要的一步，今天我將著重於處理數據中的缺失值與異常數據，這些數據可能是由於爬蟲過程中的解析錯誤導致的，因此需要再進行進一步的分...

KE-LIN ‧ 2024-10-01

0 Like 0 留言 412 瀏覽

鐵人賽自我挑戰組 DAY 16

從零基礎到實戰：利用網頁爬蟲結合 RPKM 算法計算 COVID-19 感染者肺部基因表達量系列第 16 篇

技術 Day16：儲存爬取的基因位置訊息

今天我將正式保存之前爬取和解析的基因位置訊息，並進行數據檢查，確保所有數據的完整性，這一步的目的是將整理後的基因位置訊息儲存到一個 Excel 文件中，並為後續...

KE-LIN ‧ 2024-09-30

0 Like 0 留言 305 瀏覽

鐵人賽自我挑戰組 DAY 15

從零基礎到實戰：利用網頁爬蟲結合 RPKM 算法計算 COVID-19 感染者肺部基因表達量系列第 15 篇

技術 Day15：整合爬取的基因數據

今天的目標是將所有爬取到的基因數據整合到一個完整的 DataFrame 中，我已經成功爬取了每個基因的詳細頁面，並從中提取了基因的起始與結束位置；現在我需要將這...

KE-LIN ‧ 2024-09-29

0 Like 0 留言 293 瀏覽

鐵人賽自我挑戰組 DAY 14

從零基礎到實戰：利用網頁爬蟲結合 RPKM 算法計算 COVID-19 感染者肺部基因表達量系列第 14 篇

技術 Day14：處理爬蟲過程中的異常情況

爬蟲過程中，網路波動或伺服器超時等等的情況是不可避免的，今天我將著重於如何在爬蟲過程中應對這些異常情況，並保證爬蟲的穩定性；通過加入錯誤處理機制，我可以在面對各...

KE-LIN ‧ 2024-09-28

0 Like 0 留言 410 瀏覽

鐵人賽自我挑戰組 DAY 13

從零基礎到實戰：利用網頁爬蟲結合 RPKM 算法計算 COVID-19 感染者肺部基因表達量系列第 13 篇

技術 Day13：添加爬蟲日誌記錄與進度追蹤

今天的目標是為爬蟲過程添加日誌記錄和進度追蹤功能。這些功能能夠幫助我在抓取大量數據時了解整體進度，並在出現錯誤時快速定位問題，原因是因為當處理成千上萬個基因數...

KE-LIN ‧ 2024-09-27

0 Like 0 留言 209 瀏覽

鐵人賽自我挑戰組 DAY 12

從零基礎到實戰：利用網頁爬蟲結合 RPKM 算法計算 COVID-19 感染者肺部基因表達量系列第 12 篇

技術 Day12：優化爬蟲的性能與數據抓取效率

今天的任務是進一步優化爬蟲性能，特別是針對大規模數據抓取過程中的效率問題，因此我將對網路請求做一些改進，包括增加並發限制、處理網絡波動以及添加異常處理機制，從而...

KE-LIN ‧ 2024-09-26

0 Like 0 留言 201 瀏覽

鐵人賽自我挑戰組 DAY 10

從零基礎到實戰：利用網頁爬蟲結合 RPKM 算法計算 COVID-19 感染者肺部基因表達量系列第 10 篇

技術 Day10：爬取網頁的基因訊息

今天我要從昨日定義之頁面中爬取基因的起始與結束位置，這些位置訊息會用來計算基因表現量，而在此我將使用 BeautifulSoup 來解析爬取到的 HTML 頁面...

KE-LIN ‧ 2024-09-24

0 Like 0 留言 344 瀏覽

鐵人賽自我挑戰組 DAY 1

從零基礎到實戰：利用網頁爬蟲結合 RPKM 算法計算 COVID-19 感染者肺部基因表達量系列第 1 篇

技術 Day1：自我挑戰之前言與目標概述

哈囉~大家好~第一次參與 IT 鐵人賽，好緊張啊~ 挑戰目標這次挑戰的核心是透過 Python 爬取基因相關資訊，並結合 RPKM（Reads Per Kil...

KE-LIN ‧ 2024-09-15

0 Like 0 留言 916 瀏覽

技術 robots.txt 介紹

前言我的第一篇 IT 邦文章，就來介紹一下最近工作研究的東西吧！我是資訊領域的新手，以前做的偏硬體，後來在做 AI ，發現自己對網頁也很有興趣（反正技術都可互...

Eunice ‧ 2024-08-21

0 Like 0 留言 1331 瀏覽

技術網路爬蟲-爬取串流平台熱門週排行前50名歌曲清單

目的：爬取串流平台熱門週排行前50名歌曲清單，以利後續作串流平台的數據分析。步驟：匯入需要套件設定headers模擬人為操作爬取週排行前50名歌曲清單...

AlbertShiu ‧ 2024-03-27

0 Like 1 留言 947 瀏覽

技術網路爬蟲-氣候變遷災害風險圖臺

我在使用PYTHON爬蟲撈取「氣候變遷災害風險圖臺」的資料時遇到一問題https://dra.ncdr.nat.gov.tw/Frontend/Tools/Sh...

94878 ‧ 2024-03-14

0 Like 0 留言 5163 瀏覽

技術 [Python爬蟲] Pandas模組

[Python爬蟲] Pandas 模組 Python 的 Pandas 是一個強大的資料分析工具包，讓你能夠輕鬆地處理和分析結構化數據。以下是一個基本的 P...

pellok ‧ 2024-01-11

0 Like 0 留言 2315 瀏覽

技術 [Python爬蟲] 網路爬蟲

網路爬蟲 Python爬蟲是指使用Python程式語言來從網頁上抓取資料的技術。這個過程涉及發送請求到網站，獲取網頁內容，然後解析這些內容以提取有用的資訊。以...

pellok ‧ 2023-11-30

3 Like 0 留言 7312 瀏覽

鐵人賽自我挑戰組

用ChatGPT詠唱來完成工作與點亮前後端技能樹系列第 54 篇

技術【Day54】ChatGPT幫我完成工作：不會python也能用python爬蟲做出IT邦幫忙自動發文神器

這篇基本上就是【Python】鐵人賽草稿自動排程發文神器 & line notifiy 這一篇的撰寫過程我先說一下，我實在不會python倒不是說...

一宵三筵 ‧ 2023-11-09

技術 爬蟲

技術 請問大家有爬蟲Shopee的經驗嗎？