iT邦幫忙

鐵人檔案

2022 iThome 鐵人賽
回列表
自我挑戰組

養爬蟲的人學爬蟲 系列

在30天內摸索爬蟲的世界

鐵人鍊成 | 共 30 篇文章 | 13 人訂閱 訂閱系列文 RSS系列文
DAY 11

【Day 11】認識Pandas模組

閒聊昨天簡單的學習了具有清洗功能的Requests-HTML,今天來認識Pandas模組。 什麼是PandasPandas是專門為編寫Python的外部模組,主...

2022-09-24 ‧ 由 teresawang 分享
DAY 12

【Day 12】常出現的BeautifulSoup

閒聊昨天試著了解了Pandas,今天要來看看上網找爬蟲基本上一定會出現的BeautifulSoup。 BeautifulSoupBeautiful是一個Pyth...

2022-09-25 ‧ 由 teresawang 分享
DAY 13

【Day 13】不同的爬蟲種類

閒聊在昨天學習了BeautifulSoup套件後,今天來看看爬蟲究竟有分為哪些種類,以及它們之間的差別。 種類 通用網路爬蟲 聚焦網路爬蟲 增量式網路爬蟲 深...

2022-09-26 ‧ 由 teresawang 分享
DAY 14

【Day 14】爬進PTT的網頁吧!(實戰PTT 1/3)

閒聊在前面幾天學習後,今天要來試著爬取PTT的八卦版。 今天會用到的工具 VS Code Requests BeautifulSoup 預期目標繞過確認已滿...

2022-09-27 ‧ 由 teresawang 分享
DAY 15

【Day 15】爬完這邊繼續爬!(實戰PTT 2/3)

閒聊昨天我們爬了PTT八卦版的「是否已滿18歲」的部分,今天會繼續往下爬。繼續爬的意思就是,照技術上來說,每爬取到一個網頁後就去爬取下一頁的網址(url)。爬取...

2022-09-28 ‧ 由 teresawang 分享
DAY 16

【Day 16】把爬完的資料用JSON儲存吧!(實作PTT 3/3)

閒聊昨天我們嘗試讓爬蟲會繼續往下一頁前進,那麼今天就是要把我們前兩天的資料儲存起來。 預期將爬取到的文章內容以JSON檔案格式儲存。 實作第一步需要先定義一個等...

2022-09-29 ‧ 由 teresawang 分享
DAY 17

【Day 17】半個月以來的總結

閒聊鐵人賽至目前要經過一半了,覺得時間過的好快。今天就讓我們一起回顧半個月以來都學了些什麼吧! Python環境設定 Python Visual Studio...

2022-09-30 ‧ 由 teresawang 分享
DAY 18

【Day 18】動態網頁爬蟲-Selenium(1/2)

閒聊昨天稍微整理了我們這半個月學的東西,今天要繼續踏上學習爬蟲的路了。之前我們爬的都是靜態網頁,今天要學的跟動態網頁有關係。 SeleniumSelenium可...

2022-10-01 ‧ 由 teresawang 分享
DAY 19

【Day 19】動態網頁爬蟲-Selenium(2/2)

閒聊昨天建構好了Selenium的環境跟了解一些基本操作後,今天要來繼續學習更多用法。 Xpath語法在昨天有介紹過一部分可以搜尋HTML文件的方法,今天介紹另...

2022-10-02 ‧ 由 teresawang 分享
DAY 20

【Day 20】帶上工具去Dcard去爬文(實戰Selenium 1/2)

閒聊 預期效果透過Selenium成功開啟Dcard分頁(瀏覽器分頁),並用內鍵工具索取目前所有文章,將文章存在JSON檔案。 實作 第一步我們需要先寫一個簡...

2022-10-03 ‧ 由 teresawang 分享