最近公司要求我們幫忙蒐集展覽客戶公開聯絡名單,內容有上百筆,實在不想一筆一筆複製,本來用爬蟲得到了幾乎所有資料,但唯獨email是以按鈕的方式呈現,測試了一下,像是回傳的值才丟到mail裡面。
想請問各位板友能給一點點意見嗎??
圖片:
先行拜託及感謝各位了。
附上網站網址:http://business.com.tw/com/com.asp?id=2i4zh59i8zopr8y
用selenium 去模擬網頁的行為,再抓回傳值
http://www.tastones.com/zh-tw/tutorial/python-selenium/selenium-click-button/
或你用requests去post那個mail.asp,送出的資料就是你從頁面上抓來的{"midd":"0014196"},就會得到一個回傳form,再去解析它應該就對了
1.取得原始碼如下
<form method='post' action='/scripts/mail.asp'><input type=hidden name='midd' value='0014196'><input type='submit' value='電子郵件' ></form>
2.POSTmidd=0014196
到http://business.com.tw/scripts/mail.asp
得到以下結果
<script language="JAVASCRIPT">
location.href='mailto:jamess.hsu@msa.hinet.net?subject= Business Express&body=* Infomation from http://business.com.tw *';
history.back();
</script>
<script language="JAVASCRIPT">
history.back();
</script>
3.再從其中剖析出 mailto 後面的電郵地址
4.收工放飯