上次帶了一些網頁爬蟲的介紹與範例
今天要來實戰看看囉 - 爬取股票
在爬取之前,我們至少要先知道我們要爬什麼
今天先從財務指標做入門,如果有空的話會再介紹技術指標
財務指標
其實財務指標有很多,從五大類來看
以上列出的都是我們選股常看的指標
通常都會有一個恰當的數字評估,以ROA來說一般標準是6~7%,那越高當然越好,像這樣就可以用來篩選股票囉 !
今天我們要做的是
接著來到TWSE網站
http://www.twse.com.tw/zh/page/trading/exchange/BWIBBU.html
隨便找個股票
import requests
from bs4 import BeautifulSoup
import pandas as pd
url = 'http://www.twse.com.tw/zh/page/trading/exchange/BWIBBU.html'
我們會有一個function讓user輸入以下資料
像這樣call function
parseTWSE(2018,11,2891)
按上面的表格,先讓user輸入三個資料
def parseTWSE(yr,month,no):
str(yr)
str(month)
str(no)
接著因為這邊POST資料過去
payload={
'myear':yr,
'mmon':month,
'stock_no':no
}
我們要仿造headers,讓瀏覽器以為是人在操作
headers = {
'user-agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36'
}
最後把headers、payload都丟進去post
res = requests.post(url,headers = headers,data =payload)
print(res.text)
最後就會看到它彈回整個頁面囉
再依照你所需,用BeautifulSoup讓你可以選擇想要抓的table
以下classname放入table的class name 一樣以.
起頭即可囉
soup = BeautifulSoup(res.text,'html.parser')
content = soup.select('classname')