關於 robots.txt 禁止蒐錄

robots

webtest 2018-04-24 13:54:44 ‧ 4980 瀏覽

分享至

各位好

/download/1/pdf/a01.pdf
/download/1/pdf/a01.pdf
/download/1/jpg/1.jpg
/download/2/pdf/b01.pdf
/download/3/pdf/1.pdf
/download/3/jpg/1.jpg
....
/download/流水號/pdf/*.pdf
....

請問禁止蒐錄*.pdf?
先謝謝各位!

看更多先前的討論...收起先前的討論...

allenlwh iT邦高手 1 級 ‧ 2018-04-24 14:10:26 檢舉

Disallow: /*.pdf$

webtest iT邦新手 4 級 ‧ 2018-04-24 14:50:14 檢舉

謝謝!

我只要禁止蒐錄/download/ 下的PDF, 其他目錄是允許PDF.

㊣浩瀚星空㊣ iT邦大神 1 級 ‧ 2018-04-24 17:02:04 檢舉

如果可以確定無其它的pdf目錄名的話。可以改用以下的方式處理
要不然你就得寫正則了
Disallow: /pdf/*.pdf$

webtest iT邦新手 4 級 ‧ 2018-04-24 17:03:06 檢舉

剛爬文看到別人網站用*來代替
換成 /download/*/pdf/* , 請問這可運作嗎?
謝謝!

登入發表討論

熱門推薦

{{ item.channelVendor }} | {{ item.webinarstarted }} |

直播中

1 個回答

bizpro

iT邦大師 1 級 ‧ 2018-04-24 19:50:30

最佳解答

請問禁止蒐錄*.pdf?

用密碼保護這些pdf檔!　這是最好的方式.

很難禁止所有的搜尋引擎, 也不能相信搜尋引擎會尊重您的robots.txt和.htaccess, 假如您相信搜尋引擎都是善良的, 那麼:

robots.txt中:

User-agent: *
Disallow: /download/*.pdf$

.htaccess中:

<FilesMatch "\.pdf$">
header set x-robots-tag: noindex
</FilesMatch>

在HTML中:

<a href="download/some.pdf" rel="nofollow">下載此pdf檔</a>

回應 2
分享
檢舉

webtest iT邦新手 4 級 ‧ 2018-04-24 20:43:48 檢舉

謝謝您的解答
禁止蒐錄是為了減少頻寬

kgame iT邦新手 4 級 ‧ 2018-04-25 09:35:56 檢舉

搜尋引擎不收錄還是有可能被爬蟲爬過

登入發表回應

我要發表回答

立即登入回答

參賽組數

902 組

團體組數

37 組

累計文章數

19861 篇

完賽人數

528 人

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 17th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# linux windows server css react

趣味SQL 260224 時間區間重疊偵測與合併

IT邦幫忙