網址及參數都做HASH並存於資料庫,只要下次要搜尋新網頁前先搜一下資料庫是否有相同的HASH字串,如果有,就跳過
新聞喔,應該會有時間吧 用時間判斷應該就可以了吧?你爬蟲會爬整頁的內容對吧?,想辦法分辨出時間的element,只抓取從某時間範圍即可。那時間部分就可以看你要h...
識別碼 這個方法較為可靠,也不限於固定頻率的資料。記錄資料的識別碼(Identifier),只要下次爬取的第一則識別碼不存在於資料庫,就代表有新的資料,但是爬取...
理論上 html tag 都會藏每篇文章的 ID,可以試著找找看 用文章標題過濾,在插入資料庫前先進行搜尋,看看是否已經存在 (可搭配文章日期) 用文章網址過...