iT邦幫忙

DAY 12
1

從魯蛇到蟒蛇--網頁(站)靜(動)態分析工具開發系列 第 12

[Day 12] HTML 標籤分析-05

  • 分享至 

  • xImage
  •  

小週末,想休息,突然驚覺三十天並不是一件簡單的事啊!今天工作處理一個python使用mysql的套件, MySQLdb ,不知道內建的溢出字元方法有沒有問題﹝反正先用再說了﹞。

標籤分析到這邊算是一個段落了,稍微修改昨天的程式碼,目前看來是沒有問題...

reStr = "<([\w]+)(.*?)>";
reObj = re.compile( reStr.format() )
    
targetTag = reObj.findall( data )
    
TagList = []
for x in targetTag:
    Attribute = x[1].split("\" ")
    TagList.append( x[0] ) 

    for y in Attribute:
        if y is not "" and y is not "/" :
            AttName = y.split("=\"")
            TagList.append( AttName ) 

for T in TagList:
    print( T )

雖然會又多一個空白或分號的問題,但是這些可以在使用屬性時再處理!

該抓的資料都抓出來了,那接下來就試試看爬蟲吧!爬一爬這個網站的連結有沒有失效的連結,這也算是一個SEO重點!

主要有幾的重點,先記著,明天有比較多的時間一個一個實作!

1.抓出連結,a,img,link,script,form內的src,href,action
2.相對路徑和絕對路徑
3.Domain要相同
4.別進入無窮迴圈

大約就事上述幾個吧!實作中或許會遇到更多問題,到時候就見招猜招吧!

晚安!三十天好多啊QQ


上一篇
[Day 11] HTML 標籤分析-04
下一篇
[Day 13] 弄個sample的網站,免得搞壞別人的網站
系列文
從魯蛇到蟒蛇--網頁(站)靜(動)態分析工具開發30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言