iT邦幫忙

2019 iT 邦幫忙鐵人賽

DAY 4
0
AI & Data

量化投資與機器學習研究系列 第 4

04.爬蟲工具

  • 分享至 

  • twitterImage
  •  

股市資料爬蟲有些需要定期爬或需要時常維護修改
對於大量的爬蟲要如何寫才能可靠且好維護呢?

網路上很多免費的python爬蟲教學
爬蟲教學
這個寫得很好,就不再重寫教學了,之後只分享一些實際遇到的問題

以下是我用的爬蟲工具

requests
取得網站內容
pyquery
解析需要的欄位,也可以用beautifulsoup
這位大大投影片分析兩者,pyquery可以更快的取到資料,因為原本就會jquery所以轉pyquery很快就沒考慮beautifulsoup了
scrapy
如果需要做個可維護好修改的爬蟲還是需要用這個
scrapyd
把爬蟲佈署成一個服務
spiderkeeper(有一些很嚴重的bug需要修改,作者已經沒有維護,之後有機會分享如何修改)
scrapyd的圖形化網站服務,做排程
requestium
requests整合Selenium的方便工具
tesseract
破解驗證碼
keras
用RNN自己訓練資料破解驗證碼,會比tesseract正確率高很多
MongoDB
對非結構的網站先把資料塞進去

如何爬被禁止爬蟲的網站

  • 使用隨機的瀏覽器
    添加user agent
  • ip被封改proxy
    去github上找免費proxy服務
  • 下載延遲
    越久越好不要把別人的網站搞壞
  • 多執行緒
    越少越好不要把別人的網站搞壞,除非是不同網站
  • 如果可以,不要用cookies
    有的會被發現爬蟲
  • 當前從哪個網站來的
    加referer

以上問題scrapy都可以很方便添加完成,或原本就幫你處理了
網路上都有很多解決上面問題的教學,之後我也會寫我的解法


上一篇
03.量化武器庫
下一篇
05.爬蟲工具scrapy用法
系列文
量化投資與機器學習研究30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言