iT邦幫忙

DAY 11
1

從魯蛇到蟒蛇--網頁(站)靜(動)態分析工具開發系列 第 11

[Day 11] HTML 標籤分析-04

  • 分享至 

  • xImage
  •  

經過這幾天的折磨,才知道會修別人寫出來的屍體是一件多麼痛苦的事,真的是"屍體"啊!而且還是"殭屍",不理會還會造成更大的災難...,我現在也很難相信資工、資管等等的科系出來的程式能力了...

廢話也沒辦法說太多了,這麼晚下班連codeing的時間也沒有了,肚子裡那一點點的墨水也早就被被榨乾了!所以今天也只能寫點沒營養的內容!

昨天把正規式語句確定之後,現在要決定要分析哪些目標了!主要是針對SEO作目標分析!

1.w3c規範,就是第一行的<img><form><script><link>

其是上面列了這麼多,主要幾個都得先取出標籤的屬性,所以

reStr = "<([\w]+)(.*?)>";
reObj = re.compile( reStr.format() )

在使用split處理空白和=",分出屬性

for x in targetTag:
    Attribute = x[1].split(" ")
    print( "<" + x[0] + "> Attribute => " )
    for y in Attribute:
        if y is not "" and y is not "/" :
            print( " " + y )

雖然可以分析出屬性,但是想把資料整理成LIST時,卻發現字典比較好用,勉強用LIST完成整理,卻發現沒有處理到例外狀況,例如 charset=utf-8 和 charset="utf-8" 明天繼續努力分析...

附上尚未完成分析的程式碼

TagList = []
for x in targetTag:
    Attribute = x[1].split(" ")
    TagList.append( x[0] ) 

    for y in Attribute:
        if y is not "" and y is not "/" :
            AttName = y.split("=\"")
            TagList.append( AttName ) 
    
print ( TagList )

以上,明天繼續,晚安!


上一篇
[Day 10] HTML 標籤分析-03
下一篇
[Day 12] HTML 標籤分析-05
系列文
從魯蛇到蟒蛇--網頁(站)靜(動)態分析工具開發30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言