小週末,想休息,突然驚覺三十天並不是一件簡單的事啊!今天工作處理一個python使用mysql的套件, MySQLdb ,不知道內建的溢出字元方法有沒有問題﹝反正先用再說了﹞。
標籤分析到這邊算是一個段落了,稍微修改昨天的程式碼,目前看來是沒有問題...
reStr = "<([\w]+)(.*?)>";
reObj = re.compile( reStr.format() )
targetTag = reObj.findall( data )
TagList = []
for x in targetTag:
Attribute = x[1].split("\" ")
TagList.append( x[0] )
for y in Attribute:
if y is not "" and y is not "/" :
AttName = y.split("=\"")
TagList.append( AttName )
for T in TagList:
print( T )
雖然會又多一個空白或分號的問題,但是這些可以在使用屬性時再處理!
該抓的資料都抓出來了,那接下來就試試看爬蟲吧!爬一爬這個網站的連結有沒有失效的連結,這也算是一個SEO重點!
主要有幾的重點,先記著,明天有比較多的時間一個一個實作!
1.抓出連結,a,img,link,script,form內的src,href,action
2.相對路徑和絕對路徑
3.Domain要相同
4.別進入無窮迴圈
大約就事上述幾個吧!實作中或許會遇到更多問題,到時候就見招猜招吧!
晚安!三十天好多啊QQ