iT邦幫忙

0

想利用python抓取資料,放到資料庫,每一次抓取都跟上一次比較!

  • 分享至 

  • xImage

想利用python抓取資料,放到資料庫,每一次抓取都跟上一次比較!

用爬蟲上網爬文章標題,假如抓到的是"iT邦幫忙",再隔五分鐘抓取,想要比較這次抓取到的標題是不是跟上次一樣,如果一樣就顯示0、1。

想請問這樣要怎麼寫呢?

圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

1 個回答

1
熊熊工程師
iT邦研究生 1 級 ‧ 2022-10-17 11:17:26

最陽春的:
排程工具 scheduler + 爬蟲 + 資料庫 sqlite (安裝東西的部分比較簡單)

比較完整的:
airflow (排程工具、會搭配 postgresql 使用) + 爬蟲

時間很多的:
排程工具 celery + 爬蟲 + 資料庫 (看你想用啥)

只要是資料庫的部份不知道怎麼寫,不知道怎麼比對,在網路上有看到蠻多的,只是我抓取到的東西是放在變數裡面,不知道怎麼把變數裡面的東西存到資料庫裡面??

你的問題有兩個:

  1. 不會讀寫資料庫
  2. 不知道該怎麼做比對

依序解答:

  1. 請自己 google 關鍵字 python + sqlite 教學
  2. 假設你今天寫入的資料有 id (資料庫自動產生), product, url, price,你可以挑選其中比較不太可能重複的欄位做比對,像是 url 很明顯就不可能會重複,因此你在每次寫入資料庫的時候可以先針對這個欄位做搜尋,如果搜尋的到東西,代表有重複的資料,沒有東西就代表沒有資料,因此可以繼續做寫入的動作,以此類推

我要發表回答

立即登入回答