iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

Edward (edward_chill_chou)

iT邦新手 4 級 ‧ 點數 356

12824

累計瀏覽數

站內簡訊追蹤

Edward 所有喜歡的回答 5

2 Like

【PYTHON】請問如何避免內容重複抓取

網址及參數都做HASH並存於資料庫，只要下次要搜尋新網頁前先搜一下資料庫是否有相同的HASH字串，如果有，就跳過

2022-09-22 ‧ 由 Edward 提問

1 Like

【PYTHON】請問如何避免內容重複抓取

新聞喔，應該會有時間吧用時間判斷應該就可以了吧？你爬蟲會爬整頁的內容對吧？，想辦法分辨出時間的element，只抓取從某時間範圍即可。那時間部分就可以看你要h...

2022-09-22 ‧ 由 Edward 提問

1 Like

【PYTHON】請問如何避免內容重複抓取

識別碼這個方法較為可靠，也不限於固定頻率的資料。記錄資料的識別碼（Identifier），只要下次爬取的第一則識別碼不存在於資料庫，就代表有新的資料，但是爬取...

2022-09-22 ‧ 由 Edward 提問

1 Like

【PYTHON】請問如何避免內容重複抓取

用每篇文章的 URL 判斷是否重覆即可

2022-09-22 ‧ 由 Edward 提問

1 Like

【PYTHON】請問如何避免內容重複抓取

理論上 html tag 都會藏每篇文章的 ID，可以試著找找看用文章標題過濾，在插入資料庫前先進行搜尋，看看是否已經存在 (可搭配文章日期) 用文章網址過...

2022-09-22 ‧ 由 Edward 提問

Edward的鐵人檔案

Edward的收藏

Edward的追蹤

Edward的Like

Edward的紀錄

Edward的訂閱列表