慘了~~ 昨天的idea應該是可行,但我找不到好方法把要的HTML片段給截取出來 orz...
之前找的工具可以用XPath方式,把一個個HTML的節點(tag)給找出來,問題是我現在需要的是某個節點下的一整串tags,而不是單一節點。例如iT邦幫忙分享文章的HTML碼,其中描述的HTML碼片段如下:
<div id="qBodyCnt">
<p>上周看了一篇新聞,<a href="http://dailynews.sina.com/bg/news/int/ausdaily/20101018/17451917146.html">航空老闆 卧底當菜鳥空少</a>內心上演無限想像…<br />
哇~如果大老闆真的臥底在你我身邊,會發生什麼事呢??<br />
飛上枝頭當鳳凰?<br />
一步登天?<br />
還從此淪落為黑面蔡?</p><br>
</div>
所以我需要找到<div id="qBodyCnt">,然後以字串的方法取出這個div下的原始HTML碼,包含<p>和<a>,也許還會有<img>等...
目前拜問Google大神的結果是,取得單一節點都沒問題,範例很多,不過都不是我要的。看來需要用SAX的方式,來parse整個HTML,然後自己再組合回HTML才行。
寫了一些測試程式,希望能快點找到解決的方法啊~~