iT邦幫忙

DAY 7
1

在此對站在教育第一線的所有教師至上最崇高敬意!

教師節快樂!

出來工作快滿一年了,在工作上最常思念起的就是學校老師,總是痛恨自己讀書時的不夠認真,導致工作即將滿一年卻還是沒什麼進步。

讀書是一輩子的事,是一件停止就等於開始與社會脫軌的重要的事情,所以千千萬萬不要不讀書!在社會上混著混著,想著總有一天要回學校教書,為國家的未來做點貢獻。﹝年輕人,想那麼多幹嘛!﹞

廢話真多,總之就是教師節快樂!

今天把剩下的兩個模組摸摸,urllib.robotparser 和 urllib.error

urllib.robotparser 主要就是讀取網站的 robots.txt

robots.txt 是什麼?它是一個放在網站跟目的一個ASCII檔案,用來告訴搜尋引擎的爬蟲機器人能爬哪些目錄,不能爬哪些目錄。維基百科有更完整的說明,有興趣可以GOOGLE一下。

有也好不要也罷的的這個檔案,基本上沒有特別限制的話,都長成這樣

User-agent: *
Disallow:

urllib.error 就是解析 urllib.request 回傳的錯誤,沒有找到太多資料,所以就先寫了個 sample ,哪天真的要用到了,在打開源碼來K吧!

因為程式碼不多,就把兩個程式合在一起寫了

程式碼如下:

import urllib.robotparser
import socket
import urllib.error

targetUrl = "http://www.my-website.idv.tw/"

rp = urllib.robotparser.RobotFileParser()
rp.set_url( targetUrl + "robots.txt" )

try :
    rp.read()
    
    redata = rp.can_fetch("*", targetUrl + "secrecy/")
    print( redata )

    redata = rp.can_fetch("*", targetUrl )
    print( redata )
    
except socket.error as err:
    print( "Fail to get url!" )
    print(urllib.error.URLError(err) )

以上,明天要繼續邊上班邊打文章﹝騙誰啊!每天文章這麼少字...﹞,晚安!


上一篇
[Day 06] urllib-03
下一篇
[Day 08] HTML 標籤分析-01
系列文
從魯蛇到蟒蛇--網頁(站)靜(動)態分析工具開發30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言