iT邦幫忙

爬蟲相關文章
共有 44 則文章

技術 練習1: 用BeautifulSoup和requests模組爬取ptt熱門看板標題

筆者很廢...所以還請看到這篇練習文的大佬嘴下留情 :) 先確認BeautifulSoup4已經安裝了,若是還沒請: pip3 install beautifu...

鐵人賽 AI & Data DAY 28

技術 【Day 27】在 Scrapy 中處理爬取結果 - Item Pipelines

當 scrapy.Spider 爬蟲抓到資料後,會將資料送往 Item Pipelines 進行一系列的處理。常見的使用情境是: 清理 HTML 資料 驗證資...

鐵人賽 AI & Data DAY 29

技術 【Day 28】Item Pipelines 應用 - 儲存資料到 MongoDB

延續昨天的主題,今天要建立一個 Pipeline 元件,用來將爬到的資料存到 MongoDB 中。 建立 Pipeline 元件 在專案目錄的 pipeline...

鐵人賽 AI & Data DAY 26

技術 【Day 25】用 Scrapy 爬取 iT 邦幫忙的技術文章

大概兩個禮拜前我們已經有用 requests + BeautifulSoup 兩個套件來把文章爬取下來了,今天會把相關的邏輯都移植到 Scrapy 框架中。先附...

鐵人賽 AI & Data DAY 11

技術 【Day 10】蒐集 iT 邦幫忙的技術文章 (3/6) - 換頁

昨天我們只有抓到第一頁的文章標題,今天就來試著讓程式學會「換頁」吧! 換頁方式 當我們在網頁中按下第二頁或下一頁後,可以發現網址變成 https://ithe...

鐵人賽 AI & Data DAY 15

技術 【Day 14】資料持久化 - RDBMS (1/4)

寫完蒐集資料的程式後,接著要選擇儲存資料的方式,通常會選擇關聯式資料庫(RDBMS)或非關聯式資料庫(NoSQL) ,應該比較少人會存成本地檔案吧。這個系列會分...

鐵人賽 AI & Data DAY 27

技術 【Day 26】Scrapy 的結構化資料 - Item

在前幾天的爬蟲中,我們都是以 Python dict 的結構在儲存爬取結果,隨著爬蟲數量增加,會在越來越多的程式中使用到相同的結構來儲存資料,但同時也容易在不同...

鐵人賽 AI & Data DAY 12

技術 【Day 11】蒐集 iT 邦幫忙的技術文章 (4/6) - 內文

今天來試著抓文章的內文吧!這邊就用昨天的文章來作為爬取目標 ,順便偷人氣。 決定選擇器 直接在內文中點選「右鍵 > 檢查」打開開發人員工具,可以直接定位到...

鐵人賽 AI & Data DAY 16

技術 【Day 15】資料持久化 - RDBMS (2/4)

今天來試著把我們從列表頁開始,一路抓到的文章內容和資訊都存到資料庫中! 突然想到還沒整理過完整流程的原始碼,先來整理一下唄~ import requests f...

鐵人賽 AI & Data DAY 20

技術 【Day 19】資料持久化 - NoSQL (2/2)

先附上完整原始碼。跟 Day 17 的程式碼相比,只修改了 insert_article() 和 insert_responses() 兩個方法,把目標資料庫換...

鐵人賽 AI & Data DAY 14

技術 【Day 13】蒐集 iT 邦幫忙的技術文章 (6/6) - 回文

除了原文外,回文常常也是重要的資料來源之一(特別是論壇類型的網站),所以今天來嘗試把回文也抓回來吧! 技術文章有回文的不多,找到 30天30碗平民魯肉飯完食!...

鐵人賽 AI & Data DAY 13

技術 【Day 12】蒐集 iT 邦幫忙的技術文章 (5/6) - 文章資訊

通常蒐集的資料範圍不會只有文章標題和內文,還會有作者、發文時間、標籤,甚至瀏覽數、回文等等比較詳細的資訊。今天先來抓取比較簡單的幾個資訊吧。 區塊定位 昨天我們...

鐵人賽 AI & Data DAY 17

技術 【Day 16】資料持久化 - RDBMS (3/4)

延續昨天的內容,今天會把回應的資料存到資料庫中~ 建立資料表 建立 ithome_response 資料表,並定位相關欄位如下: 這張表比較需要注意的是有...

鐵人賽 AI & Data DAY 18

技術 【Day 17】資料持久化 - RDBMS (4/4)

在前三天的內容中,我們已經把文章和回應都存到資料庫中了,但如果都是用新增的方式,每次執行時如果抓到同一篇文章都會在資料庫中多出一筆,很容易造成後續分析時的誤差。...