iT邦幫忙

Edward 所有喜歡的回答 5

【PYTHON】請問如何避免內容重複抓取

網址及參數都做HASH並存於資料庫,只要下次要搜尋新網頁前先搜一下資料庫是否有相同的HASH字串,如果有,就跳過

2022-09-22 ‧ 由 Edward 提問

【PYTHON】請問如何避免內容重複抓取

新聞喔,應該會有時間吧 用時間判斷應該就可以了吧?你爬蟲會爬整頁的內容對吧?,想辦法分辨出時間的element,只抓取從某時間範圍即可。那時間部分就可以看你要h...

2022-09-22 ‧ 由 Edward 提問

【PYTHON】請問如何避免內容重複抓取

識別碼 這個方法較為可靠,也不限於固定頻率的資料。記錄資料的識別碼(Identifier),只要下次爬取的第一則識別碼不存在於資料庫,就代表有新的資料,但是爬取...

2022-09-22 ‧ 由 Edward 提問

【PYTHON】請問如何避免內容重複抓取

用每篇文章的 URL 判斷是否重覆即可

2022-09-22 ‧ 由 Edward 提問

【PYTHON】請問如何避免內容重複抓取

理論上 html tag 都會藏每篇文章的 ID,可以試著找找看 用文章標題過濾,在插入資料庫前先進行搜尋,看看是否已經存在 (可搭配文章日期) 用文章網址過...

2022-09-22 ‧ 由 Edward 提問