先前發文
DAY 01 : 參賽目的與規劃
DAY 02 : python3 virtualenv 建置
DAY 03 : python3 request
DAY 04 : 使用beautifulsoup4 和lxml
DAY 05 : select 和find 抓取tag
DAY 06 : soup解析後 list取值
DAY 07 : request_header_cookie 通過網頁18限制
DAY 08 : ppt內文爬取
DAY 09 : 資料處理 split replace strip
DAY 10 : python csv 寫入 和dict 合併
DAY 11 : python class function
DAY 12 : crawl 框架 scrapy 使用
DAY 13 : scrapy 架構
DAY 14 : scrapy pipeline data insert mongodb
DAY 15 : scrapy middleware proxy
DAY 16 : scrapy selenium
DAY 17 : scrapy 爬取js畫面資料(二)
DAY 18 : scrapy splash 爬取js畫面資料(三)
安裝
pip install scrapy-splash
今天來介紹Docker裡開的服務 splash
sudo docker run -p 8050:8050 -p 8051:8051 scrapinghub/splash
那之後會補上應用的網站實做範例 並講解code 需求性
scrapy.settings.py
SPLASH_URL = 'http://localhost:8050'
DOWNLOADER_MIDDLEWARES = {
'scrapy_splash.SplashCookiesMiddleware': 723,
'scrapy_splash.SplashMiddleware': 725,
}
設定好了就可以加在你的code裡瞜!
from scrapy_splash import SplashRequest
# yield scrapy.Request(url, callback=self.parse_product)
# 前面startrequest跟一般scrapy框架一樣,只是yield改成Splash套件去做而已
yield SplashRequest(url, callback=self.parse_product)