iT邦幫忙

2019 iT 邦幫忙鐵人賽

DAY 13
0
AI & Data

量化投資與機器學習研究系列 第 13

13.股市資料爬蟲苦主

  • 分享至 

  • xImage
  •  

政府網站
如果資料是爬這裡的會公開方法,盡量從這邊爬
感覺政府很反爬蟲,都要慢慢爬

網站 備註
mops.twse.com.tw 公開資訊觀測站
mis.twse.com.tw 基本市況報導網站
www.twse.com.tw 上市資料來源
www.tpex.org.tw 上櫃資料來源
www.tdcc.com.tw 集中保管結算所
data.gov.tw 也有股市資料

股票網站
上面找不到的會爬下面這些
例如個股三大法人的持股比例,政府網站只有每日個股法人的買賣量,可能就由下面網站的持股預估量爬一次再自己每天加減,由於怕太多人爬把他們的網站搞壞,就不公佈方法跟是爬下面哪個網站了

網站 備註
moneydj.com
cnyes.com
cmoney
wantgoo.com
goodinfo.tw
news.cnyes.com
statementdog.com
www.stockfeel.com.tw
www.wearn.com
histock.tw
stock-ai.com
fugle.tw
nvesto.com
norway.twsthr.info
stock.wearn.com
stock.nlog.cc
www.fortunengine.com.tw
www.stockdog.com.tw
jsjustweb.jihsun.com.tw
ww2.money-link.com.tw

曾經爬過政府的網站,16個進程同時很爽很快,過幾天就有幾個網站壞了,可能原本就沒什麼人用那個資料,打電話也不處理,就永遠失去那份資料可以爬了。
也有原本同個ip 2~3秒可以爬的變成10秒才可以爬,所以惹惱了網站管理人,他只要簡單改個nginx或apache設定值,就可以讓你必須很久才能爬一次,原本慢慢爬可以半小時爬完可能就變成要爬好幾個小時或好幾天了。


上一篇
12.爬主力、散戶持有股數
下一篇
14.爬公司資訊,地址、資本額(做地緣券商)
系列文
量化投資與機器學習研究30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言