因為一些需求我們需要從別人家把資料抓回來,既然是抓別人的東西,首先要看看別人訂的遊戲規則。
Wiki 說
robots.txt(統一小寫)是一種存放於網站根目錄下的ASCII編碼的文字檔案,它通常告訴網路搜尋引擎的漫遊器(又稱網路蜘蛛),此網站中的哪些內容是不應被搜尋引擎的漫遊器取得的,哪些是可以被漫遊器取得的。
User-agent
定義誰需遵守遊戲規則
User-agent: *
User-agent: Googlebot
Disallow
不允許抓取得規則
Allow
允許抓取的規則
Crawl-delay
Crawl-delay: 10
以 Yahoo 的 robots.txt 為範例,我們可以得知 Yahoo 不允許我們使用機器人訪問以下的目錄及檔案。
https://tw.yahoo.com/robots.txt
User-agent: *
Disallow: /p/
Disallow: /r/
Disallow: /bin/
Disallow: /includes/
Disallow: /blank.html
Disallow: /_td_api
Disallow: /_tdpp_api
Disallow: /_remote
Disallow: /_multiremote
Disallow: /_tdhl_api
Disallow: /_td_remote
Disallow: /_tdpp_remote