[Day 11] HTML 標籤分析-04

DAY 11

從魯蛇到蟒蛇--網頁（站）靜（動）態分析工具開發系列第 11 篇

python 鐵人賽

seconddim

2014-10-02 23:12:13

1767 瀏覽

分享至

經過這幾天的折磨，才知道會修別人寫出來的屍體是一件多麼痛苦的事，真的是"屍體"啊！而且還是"殭屍"，不理會還會造成更大的災難...，我現在也很難相信資工、資管等等的科系出來的程式能力了...

廢話也沒辦法說太多了，這麼晚下班連codeing的時間也沒有了，肚子裡那一點點的墨水也早就被被榨乾了！所以今天也只能寫點沒營養的內容！

昨天把正規式語句確定之後，現在要決定要分析哪些目標了！主要是針對SEO作目標分析！

1.w3c規範，就是第一行的<img><form><script><link>

其是上面列了這麼多，主要幾個都得先取出標籤的屬性，所以

reStr = "<([\w]+)(.*?)>";
reObj = re.compile( reStr.format() )

在使用split處理空白和="，分出屬性

for x in targetTag:
    Attribute = x[1].split(" ")
    print( "<" + x[0] + "> Attribute => " )
    for y in Attribute:
        if y is not "" and y is not "/" :
            print( " " + y )

雖然可以分析出屬性，但是想把資料整理成LIST時，卻發現字典比較好用，勉強用LIST完成整理，卻發現沒有處理到例外狀況，例如 charset=utf-8 和 charset="utf-8" 明天繼續努力分析...

附上尚未完成分析的程式碼

TagList = []
for x in targetTag:
    Attribute = x[1].split(" ")
    TagList.append( x[0] ) 

    for y in Attribute:
        if y is not "" and y is not "/" :
            AttName = y.split("=\"")
            TagList.append( AttName ) 
    
print ( TagList )

以上，明天繼續，晚安！