iT邦幫忙

0

關於 robots.txt 禁止蒐錄

各位好

/download/1/pdf/a01.pdf
/download/1/pdf/a01.pdf
/download/1/jpg/1.jpg
/download/2/pdf/b01.pdf
/download/3/pdf/1.pdf
/download/3/jpg/1.jpg
....
/download/流水號/pdf/*.pdf
....

請問禁止蒐錄*.pdf?
先謝謝各位!

看更多先前的討論...收起先前的討論...
allenlwh iT邦高手 1 級 ‧ 2018-04-24 14:10:26 檢舉
Disallow: /*.pdf$
webtest iT邦新手 5 級 ‧ 2018-04-24 14:50:14 檢舉
謝謝!

我只要 禁止蒐錄/download/ 下的PDF, 其他目錄是允許PDF.
如果可以確定無其它的pdf目錄名的話。可以改用以下的方式處理
要不然你就得寫正則了
Disallow: /pdf/*.pdf$
webtest iT邦新手 5 級 ‧ 2018-04-24 17:03:06 檢舉
剛爬文 看到別人網站 用*來代替
換成 /download/*/pdf/* , 請問這可運作嗎?
謝謝!
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

1 個回答

0
bizpro
iT邦大師 1 級 ‧ 2018-04-24 19:50:30
最佳解答

請問禁止蒐錄*.pdf?

用密碼保護這些pdf檔! 這是最好的方式.

很難禁止所有的搜尋引擎, 也不能相信搜尋引擎會尊重您的robots.txt和.htaccess, 假如您相信搜尋引擎都是善良的, 那麼:

  1. robots.txt中:
User-agent: *
Disallow: /download/*.pdf$
  1. .htaccess中:
<FilesMatch "\.pdf$">
header set x-robots-tag: noindex
</FilesMatch>
  1. 在HTML中:
<a href="download/some.pdf" rel="nofollow">下載此pdf檔</a>
webtest iT邦新手 5 級 ‧ 2018-04-24 20:43:48 檢舉

謝謝您的解答
禁止蒐錄是為了減少頻寬

kgame iT邦新手 4 級 ‧ 2018-04-25 09:35:56 檢舉

搜尋引擎不收錄還是有可能被爬蟲爬過

我要發表回答

立即登入回答