04.爬蟲工具

2019 iT 邦幫忙鐵人賽

DAY 4

AI & Data

量化投資與機器學習研究系列第 4 篇

2019鐵人賽

kuankuan

2018-10-18 21:20:39

3858 瀏覽

分享至

股市資料爬蟲有些需要定期爬或需要時常維護修改
對於大量的爬蟲要如何寫才能可靠且好維護呢?

網路上很多免費的python爬蟲教學
爬蟲教學
這個寫得很好，就不再重寫教學了，之後只分享一些實際遇到的問題

以下是我用的爬蟲工具

requests
取得網站內容
pyquery
解析需要的欄位，也可以用beautifulsoup
這位大大投影片分析兩者，pyquery可以更快的取到資料，因為原本就會jquery所以轉pyquery很快就沒考慮beautifulsoup了
scrapy
如果需要做個可維護好修改的爬蟲還是需要用這個
scrapyd
把爬蟲佈署成一個服務
spiderkeeper(有一些很嚴重的bug需要修改，作者已經沒有維護，之後有機會分享如何修改)
scrapyd的圖形化網站服務，做排程
requestium
requests整合Selenium的方便工具
tesseract
破解驗證碼
keras
用RNN自己訓練資料破解驗證碼，會比tesseract正確率高很多
MongoDB
對非結構的網站先把資料塞進去