股市資料爬蟲有些需要定期爬或需要時常維護修改
對於大量的爬蟲要如何寫才能可靠且好維護呢?
網路上很多免費的python爬蟲教學
爬蟲教學
這個寫得很好,就不再重寫教學了,之後只分享一些實際遇到的問題
requests
取得網站內容
pyquery
解析需要的欄位,也可以用beautifulsoup
這位大大投影片分析兩者,pyquery可以更快的取到資料,因為原本就會jquery所以轉pyquery很快就沒考慮beautifulsoup了
scrapy
如果需要做個可維護好修改的爬蟲還是需要用這個
scrapyd
把爬蟲佈署成一個服務
spiderkeeper(有一些很嚴重的bug需要修改,作者已經沒有維護,之後有機會分享如何修改)
scrapyd的圖形化網站服務,做排程
requestium
requests整合Selenium的方便工具
tesseract
破解驗證碼
keras
用RNN自己訓練資料破解驗證碼,會比tesseract正確率高很多
MongoDB
對非結構的網站先把資料塞進去
以上問題scrapy都可以很方便添加完成,或原本就幫你處理了
網路上都有很多解決上面問題的教學,之後我也會寫我的解法