[Day 07] urllib-04

DAY 7

從魯蛇到蟒蛇--網頁（站）靜（動）態分析工具開發系列第 7 篇

python 鐵人賽

seconddim

2014-09-28 21:33:22

1785 瀏覽

分享至

在此對站在教育第一線的所有教師至上最崇高敬意！

教師節快樂！

出來工作快滿一年了，在工作上最常思念起的就是學校老師，總是痛恨自己讀書時的不夠認真，導致工作即將滿一年卻還是沒什麼進步。

讀書是一輩子的事，是一件停止就等於開始與社會脫軌的重要的事情，所以千千萬萬不要不讀書！在社會上混著混著，想著總有一天要回學校教書，為國家的未來做點貢獻。﹝年輕人，想那麼多幹嘛！﹞

廢話真多，總之就是教師節快樂！

今天把剩下的兩個模組摸摸，urllib.robotparser 和 urllib.error

urllib.robotparser 主要就是讀取網站的 robots.txt

robots.txt 是什麼？它是一個放在網站跟目的一個ASCII檔案，用來告訴搜尋引擎的爬蟲機器人能爬哪些目錄，不能爬哪些目錄。維基百科有更完整的說明，有興趣可以GOOGLE一下。

有也好不要也罷的的這個檔案，基本上沒有特別限制的話，都長成這樣

User-agent: *
Disallow:

urllib.error 就是解析 urllib.request 回傳的錯誤，沒有找到太多資料，所以就先寫了個 sample ，哪天真的要用到了，在打開源碼來K吧！

因為程式碼不多，就把兩個程式合在一起寫了

程式碼如下：

import urllib.robotparser
import socket
import urllib.error

targetUrl = "http://www.my-website.idv.tw/"

rp = urllib.robotparser.RobotFileParser()
rp.set_url( targetUrl + "robots.txt" )

try :
    rp.read()
    
    redata = rp.can_fetch("*", targetUrl + "secrecy/")
    print( redata )

    redata = rp.can_fetch("*", targetUrl )
    print( redata )
    
except socket.error as err:
    print( "Fail to get url!" )
    print(urllib.error.URLError(err) )

以上，明天要繼續邊上班邊打文章﹝騙誰啊！每天文章這麼少字...﹞，晚安！