iT邦幫忙

2017 iT 邦幫忙鐵人賽
DAY 2
0
Big Data

研究爬蟲的世界系列 第 2

研究爬蟲的世界:仁義道德篇 - robots.txt

  • 分享至 

  • xImage
  •  

因為一些需求我們需要從別人家把資料抓回來,既然是抓別人的東西,首先要看看別人訂的遊戲規則。

robots.txt

Wiki

robots.txt(統一小寫)是一種存放於網站根目錄下的ASCII編碼的文字檔案,它通常告訴網路搜尋引擎的漫遊器(又稱網路蜘蛛),此網站中的哪些內容是不應被搜尋引擎的漫遊器取得的,哪些是可以被漫遊器取得的。

常見屬性

User-agent

定義誰需遵守遊戲規則

  • 所有機器人 User-agent: *
  • Google 機器人 User-agent: Googlebot

Disallow

不允許抓取得規則

Allow

允許抓取的規則

Crawl-delay

  • 每次抓取需間隔10秒 Crawl-delay: 10

實際範例

以 Yahoo 的 robots.txt 為範例,我們可以得知 Yahoo 不允許我們使用機器人訪問以下的目錄及檔案。

https://tw.yahoo.com/robots.txt

User-agent: *
Disallow: /p/
Disallow: /r/
Disallow: /bin/
Disallow: /includes/
Disallow: /blank.html
Disallow: /_td_api
Disallow: /_tdpp_api
Disallow: /_remote
Disallow: /_multiremote
Disallow: /_tdhl_api
Disallow: /_td_remote
Disallow: /_tdpp_remote

延伸閱讀



上一篇
研究爬蟲的世界:序
下一篇
研究爬蟲的世界:仁義道德篇 - 避免過度使用伺服器資源
系列文
研究爬蟲的世界15
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言