請教各位先進
我目前有個網站正在建置中,由於未完成因此不希望在現階段被google bots等搜尋引擎納入
我之前是用cpanel的鎖檔案夾功能在擋(這應該是用.htaccess),但後來發現在這個模式下有一些功能無法正常被測試,
因此想請教是否有其他的方式? 我有聽過可以用robots.txt去控制這些bots但卻不清楚能否這樣用
感謝
可以啊~ 在 robots.txt 裡寫上
<pre class="c" name="code">User-agent: *
Disallow: /
存在網站根目錄就行了。
不過這防君子不防小人。例如對岸的 search engine 並不鳥 robots.txt 寫什麼,照搜不誤。
建在子網域吧~不要使用主網域或www網域
在子網域不會有google或其他bot跑進來~除非你把該子網域洩露出去~例如貼連結在論壇或gmail寄信(聽說他會抓信件內容做關鍵字)~他就會跑進來~
看你有沒有需要對外,沒有的話把port 80擋掉就好了
自己用區網測,不然用ssh走tunnel或是proxy、vpn也可以
如果要對外開放,又不想被爬蟲,只能說不可能
robot.txt就像前輩所說的,防君子不防小人,效果有限