想利用python抓取資料,放到資料庫,每一次抓取都跟上一次比較!
用爬蟲上網爬文章標題,假如抓到的是"iT邦幫忙",再隔五分鐘抓取,想要比較這次抓取到的標題是不是跟上次一樣,如果一樣就顯示0、1。
想請問這樣要怎麼寫呢?
最陽春的:
排程工具 scheduler + 爬蟲 + 資料庫 sqlite (安裝東西的部分比較簡單)
比較完整的:
airflow (排程工具、會搭配 postgresql 使用) + 爬蟲
時間很多的:
排程工具 celery + 爬蟲 + 資料庫 (看你想用啥)
只要是資料庫的部份不知道怎麼寫,不知道怎麼比對,在網路上有看到蠻多的,只是我抓取到的東西是放在變數裡面,不知道怎麼把變數裡面的東西存到資料庫裡面??
你的問題有兩個:
依序解答: