iT邦幫忙

DAY 21
1

從魯蛇到蟒蛇--網頁(站)靜(動)態分析工具開發系列 第 21

[Day 21] HTML 取出特定屬性

單就天數而言,扣掉今天,就只剩九天啦!不過一想到還剩一週,就感覺終點特別遙遠...

今天終於出太陽了,終於出去閒晃閒晃,避免自己在家中發霉,最近真的太少運動了,得安排時間固定運動一下!

SEO中有一項目是 <img> 中的 alt 想試試看把它抓出來,結果修改之前抓href的程式碼後,就迅速的得到結果!

def get_alt( TagList ) :
    targetList = [ "img" ]
    altList = []
    
    for y in TagList :
        if y[0] in targetList : #尋找<img>標籤
            Attr = y[1].split(" ")
            for z in Attr: 
                IgCh = [ '"' , "'" ] #去除前後分號
                if re.search( r'^alt=' , z ):
                    if z[4] in IgCh: #判斷是否有分號
                        altList.append( z[5:-1] )
                    else:
                        altList.append( z[4:] )
                        
    return altList

結果試試抓 src 也是小修改就好,所以我把它改成一個抓特定標籤內特定屬性的函式,預設為<a>的href

def get_attr( TagList, targetTag=[ "a" ], targetAttr=[ "href" ] ) :
    resultList = []
    
    for x in targetAttr:
        for y in TagList :
            if y[0] in targetTag : 
                Attr = y[1].split(" ")
                for z in Attr: 
                    IgCh = [ '"' , "'" ] #去除前後分號
                    if re.search( r'^'+ x +'=' , z ):
                        if z[(len(x)+1)] in IgCh: #判斷是否有分號
                            resultList.append( z[(len(x)+2):-1] )
                        else:
                            resultList.append( z[(len(x)+1):] )
    
    return resultList

剩下幾個項目,HTML分析就要差不多告一個段落,剩下九天好像還太多耶!怎麼辦呢?思考中...

以上!明天要上班囉!晚安!


上一篇
[Day 20]網站回應速度
下一篇
[Day 22] js css 長度
系列文
從魯蛇到蟒蛇--網頁(站)靜(動)態分析工具開發30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言