iT邦幫忙

鐵人檔案

2022 iThome 鐵人賽
回列表
自我挑戰組

用Python學習網路爬蟲30天 系列

以讀書心得的方式記錄使用Python語言學習網路爬蟲領域

鐵人鍊成 | 共 30 篇文章 | 6 人訂閱 訂閱系列文 RSS系列文
DAY 11

[Day11] 走訪HTML網頁

走訪HTML網頁取得資料 我們除了可以使用Beautiful Soup中的特定屬性來幫助走訪網頁,也可以使用物件樹或上一個/下一個元素來走訪剖析HTML網頁的標...

2022-09-25 ‧ 由 rouanchen 分享
DAY 12

[Day12] 資料儲存成檔案

將取得的資料儲存成檔案 從HTML網頁擷取出需要的資料後,可以將整理好的資料儲存成檔案。常用的檔案格式有兩種,分別為CSV和JSON檔。 CSV檔案:其檔案...

2022-09-26 ‧ 由 rouanchen 分享
DAY 13

[Day13] Beautiful Soup總複習

用Beautiful Soup爬取電影資訊 以Yahoo電影網站為目標網址,用Beautiful Soup物件擷取出電影的中文名稱、英文名稱、上映日期、期待度與...

2022-09-27 ‧ 由 rouanchen 分享
DAY 14

[Day14] 動態網頁擷取1_Selenium與環境安裝

動態網頁簡介 動態網頁是指網頁內容會隨著每一次瀏覽其出現的資訊可能會有所改變。例如:當日新聞資訊、每日更新的股票資訊等。而動態網頁可以分為兩種形式,如下所示:...

2022-09-28 ‧ 由 rouanchen 分享
DAY 15

[Day15] 動態網頁擷取2_Selenium網頁資料定位函數

Selenium網頁資料定位函數 find_element(By.XX, “ ”)  : 取出HTML網頁中符合的第1筆HTML元素 find_eleme...

2022-09-29 ‧ 由 rouanchen 分享
DAY 16

[Day16] 動態網頁擷取3_與HTML表單進行互動

與HTML表單進行互動 Selenium可以模擬使用者在網頁中和表單的互動過程。下方整理了以程式來做簡單的網頁搜尋流程: 首先,我們要從程式監測谷歌瀏覽器至指定...

2022-09-30 ‧ 由 rouanchen 分享
DAY 17

[Day17] 動態網頁擷取4_JavaScript動態網頁擷取

JavaScript動態網頁擷取 Selenium可以幫助我們從JavaScript的動態網頁中取得所需要的資料。可以使用find_element(s)(By....

2022-10-01 ‧ 由 rouanchen 分享
DAY 18

[Day18] Selenium總複習

用Selenium爬取旅館資訊 以Hotels.com網站為目標網址指定前往的地點、入住/退房時間與人數,用Selenium物件擷取出飯店名稱、所在區域名稱、價...

2022-10-02 ‧ 由 rouanchen 分享
DAY 19

[Day19] Scrapy爬蟲框架

Scrapy簡介 Scrapy是一套開放原始碼的框架,提供多種工具從Web網站擷取資料,主要應用於資料量較大、邏輯處理較複雜的網頁爬取。除了可以剖析與爬取網頁資...

2022-10-03 ‧ 由 rouanchen 分享
DAY 20

[Day20] Scrapy爬蟲框架2_建立專案

建立Scrapy專案 了解Scrapy Shell的使用與測試擷取所需資料的操作後,實作練習以擷取批批踢股票看板的發文標題、推文數和作者資料為例,建立Scrap...

2022-10-04 ‧ 由 rouanchen 分享