在此對站在教育第一線的所有教師至上最崇高敬意!
出來工作快滿一年了,在工作上最常思念起的就是學校老師,總是痛恨自己讀書時的不夠認真,導致工作即將滿一年卻還是沒什麼進步。
讀書是一輩子的事,是一件停止就等於開始與社會脫軌的重要的事情,所以千千萬萬不要不讀書!在社會上混著混著,想著總有一天要回學校教書,為國家的未來做點貢獻。﹝年輕人,想那麼多幹嘛!﹞
廢話真多,總之就是教師節快樂!
今天把剩下的兩個模組摸摸,urllib.robotparser 和 urllib.error
urllib.robotparser 主要就是讀取網站的 robots.txt
robots.txt 是什麼?它是一個放在網站跟目的一個ASCII檔案,用來告訴搜尋引擎的爬蟲機器人能爬哪些目錄,不能爬哪些目錄。維基百科有更完整的說明,有興趣可以GOOGLE一下。
有也好不要也罷的的這個檔案,基本上沒有特別限制的話,都長成這樣
User-agent: *
Disallow:
urllib.error 就是解析 urllib.request 回傳的錯誤,沒有找到太多資料,所以就先寫了個 sample ,哪天真的要用到了,在打開源碼來K吧!
因為程式碼不多,就把兩個程式合在一起寫了
程式碼如下:
import urllib.robotparser
import socket
import urllib.error
targetUrl = "http://www.my-website.idv.tw/"
rp = urllib.robotparser.RobotFileParser()
rp.set_url( targetUrl + "robots.txt" )
try :
rp.read()
redata = rp.can_fetch("*", targetUrl + "secrecy/")
print( redata )
redata = rp.can_fetch("*", targetUrl )
print( redata )
except socket.error as err:
print( "Fail to get url!" )
print(urllib.error.URLError(err) )
以上,明天要繼續邊上班邊打文章﹝騙誰啊!每天文章這麼少字...﹞,晚安!