在爬US NEWS的全球大學排名資料。
因為網頁是拉到頁面底部會有自動及手動讀取的機制。所以使用selenium穿插javascript以及偵測load按鈕並觸發的方式來讓頁面讀取資料。但因為排名有兩千多筆,在不斷讓頁面讀取資料後,大約到六百多筆時發生了瀏覽器out of memory的問題。
請問像這類同一頁面一直讀取資料的網頁,要如何避免瀏覽器out of memory的問題?
我想的另外一個方法,就是頁面讀取資料有一個search的api,但利用requests的方法又沒辦法抓到資料。我的寫法如下,不知道是不是有什麼問題,或是可以用其他方法透過這個api抓到資料?謝謝
import requests
headers = {'format': 'json','page': '6'}
r = requests.get('https://www.usnews.com/education/best-global-universities/api/search', headers=headers)