研究爬蟲的世界：仁義道德篇 - robots.txt - iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

2017 iT 邦幫忙鐵人賽

DAY 2

Big Data

研究爬蟲的世界系列第 2 篇

研究爬蟲的世界：仁義道德篇 - robots.txt

2017鐵人賽

alincode

2016-12-17 10:15:59

6901 瀏覽

分享至

因為一些需求我們需要從別人家把資料抓回來，既然是抓別人的東西，首先要看看別人訂的遊戲規則。

robots.txt

Wiki 說

robots.txt（統一小寫）是一種存放於網站根目錄下的ASCII編碼的文字檔案，它通常告訴網路搜尋引擎的漫遊器（又稱網路蜘蛛），此網站中的哪些內容是不應被搜尋引擎的漫遊器取得的，哪些是可以被漫遊器取得的。

常見屬性

User-agent

定義誰需遵守遊戲規則

所有機器人 User-agent: *
Google 機器人 User-agent: Googlebot

Disallow

不允許抓取得規則

Allow

允許抓取的規則

Crawl-delay

每次抓取需間隔10秒 Crawl-delay: 10

實際範例

以 Yahoo 的 robots.txt 為範例，我們可以得知 Yahoo 不允許我們使用機器人訪問以下的目錄及檔案。

https://tw.yahoo.com/robots.txt

User-agent: *
Disallow: /p/
Disallow: /r/
Disallow: /bin/
Disallow: /includes/
Disallow: /blank.html
Disallow: /_td_api
Disallow: /_tdpp_api
Disallow: /_remote
Disallow: /_multiremote
Disallow: /_tdhl_api
Disallow: /_td_remote
Disallow: /_tdpp_remote

研究爬蟲的世界系列第 2 篇

研究爬蟲的世界：仁義道德篇 - robots.txt

robots.txt

常見屬性

實際範例

延伸閱讀

尚未有邦友留言

研究爬蟲的世界系列 第 2 篇

研究爬蟲的世界：仁義道德篇 - robots.txt

robots.txt

常見屬性

實際範例

延伸閱讀

尚未有邦友留言

標記使用者

研究爬蟲的世界系列第 2 篇