iT邦幫忙

鐵人檔案

2022 iThome 鐵人賽
回列表
Software Development

爬蟲基礎入門與實際應用 系列

驚!他三十天都在寫爬蟲 朋友爆料:他手殘點到報名

從最基本的爬蟲概念和html開始介紹起,預計會寫到request和selenium這兩種常見的爬蟲套件。也會透過各種專題示範如何將這些語法實際運用到現實的爬蟲當中。最後會帶到如何將這些功能整合進discord機器人中,讓爬蟲使用起來更加方便。

鐵人鍊成 | 共 30 篇文章 | 9 人訂閱 訂閱系列文 RSS系列文
DAY 11

DAY11、政府開放資料平台

學完了requests和json的操作後。現在可以來做點練習。 政府實際上有提供蠻多整理好的資料讓我們方便取用。主要是在以下的網址: https://da...

2022-09-26 ‧ 由 navoni1024 分享
DAY 12

Day12、Selenium前置作業

本文有整理在部落格裡。裡面還有其他奇怪的文章,有空可以來看看喔。 上次我們介紹了selenium的功能與基本用法,今天我們要來講解他的相關指令。首先如果要先使...

2022-09-27 ‧ 由 navoni1024 分享
DAY 13

Day13、Selenium指令使用

本文有整理在部落格裡。裡面還有其他奇怪的文章,有空可以來看看喔。 昨天我們講解了selenium的基本前置,但其實少了一點,一開始的時候請記得還是要pip i...

2022-09-28 ‧ 由 navoni1024 分享
DAY 14

Day14、selenium常見bug處理

本文有整理在部落格裡。裡面還有其他奇怪的文章,有空可以來看看喔。 昨天我們介紹了如何讓selenium動起來,今天我們就來了解一下使用selenium時常見的...

2022-09-29 ‧ 由 navoni1024 分享
DAY 15

DAY15、專題一:惜物網 (1)

今天來爬一下惜物網作為requests爬蟲的示範。 什麼是惜物網? https://shwoo.gov.taipei/shwoo/newhome/newhom...

2022-09-30 ‧ 由 navoni1024 分享
DAY 16

DAY16、專題一:惜物網 (2)

今天來實作 首先寫個簡單的程式確定requests能夠正常的把頁面抓下來。headers可以直接抄你在開發者工具中看到的,cookie不用抄。用dict的型式...

2022-10-01 ‧ 由 navoni1024 分享
DAY 17

DAY17、專題一:惜物網 (3)

continue 昨天有寫到,觀察網站後可以發現所有的商品資訊都在個別的div.caption底下,所以我們可以用select把他們選出來後再一個一個處理。...

2022-10-02 ‧ 由 navoni1024 分享
DAY 18

DAY18、XPath

嗨,我代班仔啦 前幾天我們在selenium有講到幾個指令像是find_element_by的指令,但如果我們的html沒有class或是id等節點的話,其實對...

2022-10-03 ‧ 由 navoni1024 分享
DAY 19

DAY19、ChroPath

本文有整理在部落格裡。裡面還有其他奇怪的文章,有空可以來看看喔。 嗨,我代班仔啦昨天講了xpath的語法,但是其實你知道只需要有html樹狀的概念就好了嗎?俗...

2022-10-04 ‧ 由 navoni1024 分享
DAY 20

DAY20、專題二 : Pixiv (1)

這次我們來用selenium爬爬看Pixiv。目標是登入後輸入pixiv ID並自動爬下該作者所有的圖片。 今天先來登入。 首先先把環境架設好,看你喜好用哪種...

2022-10-05 ‧ 由 navoni1024 分享