經過這幾天的折磨,才知道會修別人寫出來的屍體是一件多麼痛苦的事,真的是"屍體"啊!而且還是"殭屍",不理會還會造成更大的災難...,我現在也很難相信資工、資管等等的科系出來的程式能力了...
廢話也沒辦法說太多了,這麼晚下班連codeing的時間也沒有了,肚子裡那一點點的墨水也早就被被榨乾了!所以今天也只能寫點沒營養的內容!
昨天把正規式語句確定之後,現在要決定要分析哪些目標了!主要是針對SEO作目標分析!
1.w3c規範,就是第一行的<img><form><script><link>
其是上面列了這麼多,主要幾個都得先取出標籤的屬性,所以
reStr = "<([\w]+)(.*?)>";
reObj = re.compile( reStr.format() )
在使用split處理空白和=",分出屬性
for x in targetTag:
Attribute = x[1].split(" ")
print( "<" + x[0] + "> Attribute => " )
for y in Attribute:
if y is not "" and y is not "/" :
print( " " + y )
雖然可以分析出屬性,但是想把資料整理成LIST時,卻發現字典比較好用,勉強用LIST完成整理,卻發現沒有處理到例外狀況,例如 charset=utf-8 和 charset="utf-8" 明天繼續努力分析...
附上尚未完成分析的程式碼
TagList = []
for x in targetTag:
Attribute = x[1].split(" ")
TagList.append( x[0] )
for y in Attribute:
if y is not "" and y is not "/" :
AttName = y.split("=\"")
TagList.append( AttName )
print ( TagList )
以上,明天繼續,晚安!