政府網站
如果資料是爬這裡的會公開方法,盡量從這邊爬
感覺政府很反爬蟲,都要慢慢爬
網站 | 備註 |
---|---|
mops.twse.com.tw | 公開資訊觀測站 |
mis.twse.com.tw | 基本市況報導網站 |
www.twse.com.tw | 上市資料來源 |
www.tpex.org.tw | 上櫃資料來源 |
www.tdcc.com.tw | 集中保管結算所 |
data.gov.tw | 也有股市資料 |
股票網站
上面找不到的會爬下面這些
例如個股三大法人的持股比例,政府網站只有每日個股法人的買賣量,可能就由下面網站的持股預估量爬一次再自己每天加減,由於怕太多人爬把他們的網站搞壞,就不公佈方法跟是爬下面哪個網站了
網站 | 備註 |
---|---|
moneydj.com | |
cnyes.com | |
cmoney | |
wantgoo.com | |
goodinfo.tw | |
news.cnyes.com | |
statementdog.com | |
www.stockfeel.com.tw | |
www.wearn.com | |
histock.tw | |
stock-ai.com | |
fugle.tw | |
nvesto.com | |
norway.twsthr.info | |
stock.wearn.com | |
stock.nlog.cc | |
www.fortunengine.com.tw | |
www.stockdog.com.tw | |
jsjustweb.jihsun.com.tw | |
ww2.money-link.com.tw |
曾經爬過政府的網站,16個進程同時很爽很快,過幾天就有幾個網站壞了,可能原本就沒什麼人用那個資料,打電話也不處理,就永遠失去那份資料可以爬了。
也有原本同個ip 2~3秒可以爬的變成10秒才可以爬,所以惹惱了網站管理人,他只要簡單改個nginx或apache設定值,就可以讓你必須很久才能爬一次,原本慢慢爬可以半小時爬完可能就變成要爬好幾個小時或好幾天了。