DAY4、robots.txt&header

2022 iThome 鐵人賽

DAY 4

Software Development

爬蟲基礎入門與實際應用系列第 4 篇

14th鐵人賽

navoni1024

2022-09-19 19:40:23

888 瀏覽

分享至

本文有整理在部落格裡。
部落格裡面還有其他奇怪的文章，有空可以來看看喔。

Hi，我代班仔
今天要來介紹當我們在爬蟲前，應該要知道的一些技巧與規範

為甚麼需要知道這些爬蟲規範？

首先，我們必須知道過度的網路爬蟲可能是違法的，
如使用多執行緒進行對網站的大量拜訪，在沒有適當的存取時間間隔下，可能會造成一般人熟知的DDOS(Denial-Of-Service Attack)，進而造成其他使用者無法拜訪、甚至是主機癱瘓。
因此，某些網站有制定所謂的「規範」，讓爬蟲使用者能夠去遵守並避免存取到private data
請注意這項規範並不具有強制力，並無法阻擋真正有心攻擊的爬蟲程式。

「規範」— robots.txt

robots.txt是一個告訴爬蟲哪些內容是否可存取的文字檔。
這項檔案通常位於網頁根目錄下的robots.txt，
換句話說，在main-page下加個/robots.txt就能檢視。

舉個例子吧，我們先進到google的首頁

相當正常，不是嗎?
再來利用上面的方法去找robots.txt，
我們接著在.com後面接著/robots.txt，
使網址成為https://www.google.com/robots.txt

成功了！
可是密密麻麻的，打這麼多字誰他媽看得完?
但事實上，這份文字檔可以被拆分成幾個部分，
我們從第一行開始：

1. User-Agent: *

User-Agent這一欄代表的是允許的爬蟲類型，而 * 則代表所有的意思，
所以第一行可以被解讀成，允許所有爬蟲拜訪。
此外有一些特別的程式只允許特定爬蟲拜訪網頁，如Googlebot、Applebot等，
如在最後幾行處，可以看到google的網頁允許Twitterbot能夠比一般使用者額外拜訪/imgres的子目錄。

再來我們繼續往下探討，大致上可以分為Allow開頭的，以及Disallow開頭的句子