爬取該網域時,發現不同的頁面網頁架構都不同。
所以想從String下去收尋找到該tag位置。
網頁如下:
http://ewda.tw/modules/ewda_action/action.php?asn=3985
例如:抓取”費用“這個字串,得到tag後抓取下一個的tag,就會得到我想要的數字。
一開始我以為規則是固定的,所以都抓取最上面的div區塊
但有些頁面他會添加一些備註,就會跑掉了。
目前的問題就是講師和費用這兩個不知道要用什麼方法抓好...
試了很多關鍵字搜尋都找不到
BTW, 我目前都是用BS在分解及擷取網頁資訊
是否需要用到Scrapy?
請前輩給我個概念或者關鍵字應該要打什麼能找到
都行
謝謝前輩們的耐心及回覆
一般我在做分析解析原則,是會搭配正則式來做規劃處理的。
其實你用 Scrapy 來處理會比較快。這也是為何有人說爬蟲用 python 來爬最好處理的因素之一。
我並不是用python來爬的,處理起來很麻煩的。一般我都是搭配正則來做判斷處理。
費用資訊應該是在第1個div.boxcontent
裡面的table
內的某個tr
的第2個td
講師資訊應該是在第2個div.boxcontent
裡面的第3個p
內的某個span
中