[Day 12] HTML 標籤分析-05

DAY 12

從魯蛇到蟒蛇--網頁（站）靜（動）態分析工具開發系列第 12 篇

python 鐵人賽

seconddim

2014-10-03 21:31:15

1367 瀏覽

分享至

小週末，想休息，突然驚覺三十天並不是一件簡單的事啊！今天工作處理一個python使用mysql的套件， MySQLdb ，不知道內建的溢出字元方法有沒有問題﹝反正先用再說了﹞。

標籤分析到這邊算是一個段落了，稍微修改昨天的程式碼，目前看來是沒有問題...

reStr = "<([\w]+)(.*?)>";
reObj = re.compile( reStr.format() )
    
targetTag = reObj.findall( data )
    
TagList = []
for x in targetTag:
    Attribute = x[1].split("\" ")
    TagList.append( x[0] ) 

    for y in Attribute:
        if y is not "" and y is not "/" :
            AttName = y.split("=\"")
            TagList.append( AttName ) 

for T in TagList:
    print( T )

雖然會又多一個空白或分號的問題，但是這些可以在使用屬性時再處理！

該抓的資料都抓出來了，那接下來就試試看爬蟲吧！爬一爬這個網站的連結有沒有失效的連結，這也算是一個SEO重點！

主要有幾的重點，先記著，明天有比較多的時間一個一個實作！

1.抓出連結，a,img,link,script,form內的src,href,action
2.相對路徑和絕對路徑
3.Domain要相同
4.別進入無窮迴圈

大約就事上述幾個吧！實作中或許會遇到更多問題，到時候就見招猜招吧！

晚安！三十天好多啊QQ