iT邦幫忙

0

(26)Python的基礎介紹和爬蟲

  • 分享至 

  • xImage
  •  

Python 網路爬蟲WebCrawler-Cookie操作實務(下)

接下來就用實際的程式範例操作

今天用的網頁是:PTT的八卦版
網址:https://www.ptt.cc/bbs/Gossiping/index.html

我們使用上次抓標題的方法試一次,但我們可以發現並沒有抓到東西
https://ithelp.ithome.com.tw/upload/images/20221015/20152724Xi1IjNjLrM.png

PTT電影版跟PTT八卦版的差別?
八卦版多了一個18歲的確認畫面,這時我們的爬蟲就沒辦法順利抓取程式
這個其中就和Cookie有很大的關聯

這些就是PTT放在瀏覽器的Cookie,裡面的over18就是有無超過18歲的存取
https://ithelp.ithome.com.tw/upload/images/20221015/20152724l0NGqkGAJ1.png

接著進到network頁面的request headers可以找到cookie的資料
https://ithelp.ithome.com.tw/upload/images/20221015/20152724eR1feHqlv6.png

在程式中加上這一行就可以順利的抓取內容
https://ithelp.ithome.com.tw/upload/images/20221015/201527245vAXMq8O7D.png

接著我們要讓我們的爬蟲程式不只抓取一個頁面,可以使用上面的超連結抓取多個頁面
https://ithelp.ithome.com.tw/upload/images/20221015/20152724uBwnPCLD8B.png

利用(< 上頁)的文字來抓取超連結
https://ithelp.ithome.com.tw/upload/images/20221015/20152724B8VCMuQiVB.png

在後面加上屬性的名稱這樣可以得到乾淨的網址
https://ithelp.ithome.com.tw/upload/images/20221015/20152724UWMevTCkJB.png

為了要能夠一次抓取多個頁面我們需要包裝程式,將他放到函式內
https://ithelp.ithome.com.tw/upload/images/20221015/201527248aw1i9YfgN.png

這樣我們成功一次抓取3頁的標題
https://ithelp.ithome.com.tw/upload/images/20221015/201527245rSTJSdyW9.png

參考來源:https://www.youtube.com/watch?v=BEA7F9ExiPY&list=PL-g0fdC5RMboYEyt6QS2iLb_1m7QcgfHk&index=20


圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言