Python Requests 登入後跳轉頁面問題請益

python3 requests

Neish 2018-07-19 17:37:13 ‧ 5341 瀏覽

分享至

公司內網有個網頁A (DATA_URL) 點進去後會在頁面上呈現一張表格

我想抓取這張表格的欄位資訊

但連到網頁A 若沒有登入網站會先導到登入頁面
成功登入才會跳轉回網頁A

目前我的流程是我直接requests.post登入頁面的網站(LOGIN_URL)
成功登入後在requests.get網頁A(DATA_URL)

Python語法大致如下

import requests
from lxml import html

LOGIN_URL = 'http://xxx.xxx.xxx.xxx'
DATA_URL = 'http://xxx.xxx.xxx.xxx'

session_requests = requests.session()

login_params = {'VIEWSTATE': VIEWSTATE,
'VIEWSTATEGENERATOR': VIEWSTATEGENERATOR,
'EVENTVALIDATION': EVENTVALIDATION,
'tbUserId': 'xxx',
'tbPassword': 'xxx',
'LoginType': 'xxx',
'btnLogin': 'xxx'}

r = session_requests.post(LOGIN_URL, data = login_params)
URL_COOKIES = session_requests.cookies.get_dict()
print(URL_COOKIES)

上述這段可以正常登入網站

但登入後我執行這段要連到我想要抓表格資料的網站

r = session_requests.get(DATA_URL, headers = headers, cookies = URL_COOKIES)

就出現以下這個問題...

raise TooManyRedirects('Exceeded %s redirects.' % self.max_redirects, response=resp)
requests.exceptions.TooManyRedirects: Exceeded 30 redirects.

Google了許久試過max_redirects加大、allow_redirects改成False
加入headers跟cookies可是都不行...

不知道是哪邊出了問題

headers是根據我要抓資料的網站(DATA_URL)裡面的Request Headers的樣子來寫
cookies是在登入LOGIN_URL後，用session_requests.cookies.get_dict()來抓的

不知道上述做法是否正確?

再請各位高人指點

謝謝

看更多先前的討論...收起先前的討論...

froce iT邦大師 1 級 ‧ 2018-07-19 23:10:53 檢舉

headers有改user-agent？

Neish iT邦研究生 1 級 ‧ 2018-07-20 09:41:16 檢舉

我是根據DATA_URL裡面的Request Headers來寫

user-agent是這樣User-Agent: Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36

這部分有需要做調整嗎?