介紹一個網站
http://www.dapper.net/
Dapper 是一個新的服務型態,
提供使用者自行擷取網頁資料的功能。
可以讓你用很簡單的方式進行設定,
然後將你所想要的網站資料擷取下來,
並採用你想要的格式,
包括 XML, RSS,...等等
感謝分享,剛才試了一下,主要的功能好像是將指定網站的頁面或搜尋結果轉成結構化的資料,例如XML或RSS,不過前提應該是該網站的資料必需是規則的出現,並且有DOM可以抓,如果是手工排的網頁,可能就不一定能正確抓的到!而且目前比較新的網站或blog通常都有提供RSS,就不需要自已費力去parse網頁了!
Anyway,這個網站的介面做的很棒,值的推一下!
我曾經用它來抓博客來的排行榜資料,結果就很慘,不是它不好用,而是博客來網頁寫得不夠結構化,最後還是要用文字去parsing,才抓得到我要的資料。
不過後來抓完沒多久,博客來就自己推排行榜的gadget,害我有點白忙一場。
這個應該要貼到每日一問去,哈哈。
這個網站還有意外的附加功能,
就是可以讓你知道
那些網站是用工具刻出來的,
而那些網頁是工程師流汗拼出來的。
通常用工具刻出來的 HTML 碼會比較工整(甚至符合 W3C),
而拚出來的網頁大都是較隨性一點,符合 Browser 就 OK 了。