參考資料
https://www.youtube.com/watch?v=4Ym07B15N0Y
爬蟲的網址
https://www.twse.com.tw/zh/page/trading/exchange/MI_5MINS_INDEX.html
或者搜尋:加權指數5秒
進去網站後首先點擊右鍵查看
點擊network觀察網頁是如何跟遠端的server互動的
點擊查詢
就可以發現有新的request(瀏覽器和遠端server做請求),點擊後就能看到server的網址
複製網址後到python裏頭用requests來下載資料並印出來
我們將下載來的資料從json檔改成csv改變資料格式
再來我們用pandas來讀取資料
我們可以將讀取進來的資料作調整,讓大家更好閱讀
1.header=1:將csv檔從第一行開始讀取
2.index_col='時間':將檔案的第一行變成時間
3.res.text.replace("=", ""):將檔案中的等號去除
資料處理
1.去除不需要的行列
2.設定index為日期
3.將逗點刪除,讓table裡面的字串(string)變成數字(float、int)
有太多不需要的行列,將他移除
我們希望能知道每則資料正確的日期,而且我們希望日期能寫成變數而不是寫死的字串
step1:獲得我們想要的日期格式
step2:確認資料的日期是我們要的格式
step3:將所有日期換成變數形式並且換成我們要的格式,最後將他換成電腦看得懂的格式
step4:至此將所有日期都轉換成電腦看得懂的格式
這樣我們就可以利用程式查看特定時間的資料
將所有字串改成數字形式並且將逗號都刪除
上圖就是我們爬蟲下來整合過的資料