關於【Python爬蟲】提問

python 程式碼網頁爬蟲 #新手疑問

ula14108 2021-12-07 19:20:55 ‧ 2228 瀏覽

最近在自學python爬蟲，卻遇到了問題，想請求幫解惑，程式碼如下:

想抓取的是table class="itinerary-controls"底下的第一個tr，但總在第24行出現找不到的錯誤訊息，請問到底是哪裡出錯了?
錯誤訊息如下:

爬蟲的網址:https://www.railway.gov.tw/tra-tip-web/tip/tip001/tip112/querybytime

fillano iT邦超人 1 級 ‧ 2021-12-07 19:35:14 檢舉

soup.find("table"...)沒找到東西，所以tag_table是NoneObject。

japhenchen iT邦超人 1 級 ‧ 2021-12-08 08:10:18 檢舉

遇到這類用crfs擋爬蟲的，你也只能用selenium來模擬瀏覽器的滑鼠鍵盤來爬了，會比較慢，但很難被擋下來，除非站方動用混合型的【我不是機器人】，遇到了就要認栽(除非你有更強大的人工智能來判斷圖片...)

熱門推薦

{{ item.channelVendor }} | {{ item.webinarstarted }} |

直播中

fillano

iT邦超人 1 級 ‧ 2021-12-07 19:51:37

最佳解答

csrf是伺服器動態產生用來擋Cross Site Request Forgery用的token，如果這欄不對，post出去不會得到結果，所以你也找不到你要找的table。

你得到這一頁的前一頁送一次request來取這個token，然後送出post。這個前一頁應該是：https://www.railway.gov.tw/tra-tip-web/tip/tip001/tip112/gobytime

csrf在form標籤裡的樣子：

立即登入回答

參賽組數

902 組

團體組數

37 組

累計文章數

19831 篇

完賽人數

528 人

IT邦幫忙