我們做了幾天的教學,已經把資料從Yahoo取得,並且放在Azure的SQL server中。但我們忽視一件重要的事情,就是資料的正確性。
今天我們就拿證交所的資料跟資料庫收集的資料做比對吧!
我們會需要從臺灣證券交易所
那邊取得台積電
(2330)的股票資料,觀察今年一月的資料是否跟資料庫的資料相同。其中有裡面包含:日期
、成交股數
、成交金額
、開盤價
、最高價
、最低價
、收盤價
、漲跌價差
、成交筆數
等資料,我們也有日期
、開盤價
、最高價
、最低價
、收盤價
、成交量
,屆時可觀察其中是否有差異。
首先去到個股日成交資訊取得成交資料。
在畫面中,我們選擇109年1月,在股票代碼
那邊輸入「2330」之後按搜尋,會得到下表:
日期 | 成交股數 | 成交金額 | 開盤價 | 最高價 | 最低價 | 收盤價 | 漲跌價差 | 成交筆數 |
---|---|---|---|---|---|---|---|---|
109/01/02 | 33,282,120 | 11,224,165,450 | 332.50 | 339.00 | 332.50 | 339.00 | 8.00 | 17,160 |
109/01/03 | 42,023,268 | 14,295,651,580 | 344.00 | 345.00 | 335.50 | 339.50 | 0.50 | 20,545 |
109/01/06 | 45,677,057 | 15,210,531,318 | 333.00 | 334.50 | 332.00 | 332.00 | -7.50 | 22,944 |
109/01/07 | 51,746,181 | 17,053,282,011 | 332.50 | 333.00 | 326.50 | 329.50 | -2.50 | 22,362 |
109/01/08 | 37,913,748 | 12,484,410,088 | 325.00 | 333.00 | 325.00 | 329.50 | 0.00 | 18,228 |
109/01/09 | 32,397,504 | 10,890,847,940 | 335.00 | 337.50 | 333.50 | 337.50 | 8.00 | 16,793 |
109/01/10 | 27,880,115 | 9,432,320,316 | 340.50 | 341.00 | 336.00 | 339.50 | 2.00 | 13,296 |
109/01/13 | 30,663,332 | 10,455,852,739 | 342.00 | 342.00 | 339.00 | 341.50 | 2.00 | 13,457 |
109/01/14 | 30,368,993 | 10,488,360,978 | 345.50 | 346.00 | 344.50 | 346.00 | 4.50 | 16,339 |
109/01/15 | 54,575,274 | 18,590,754,206 | 345.00 | 345.00 | 337.50 | 340.00 | -6.00 | 20,392 |
109/01/16 | 58,217,420 | 19,431,133,895 | 330.00 | 336.50 | 330.00 | 334.50 | -5.50 | 24,721 |
109/01/17 | 53,908,097 | 17,977,119,406 | 334.00 | 335.50 | 332.00 | 333.00 | -1.50 | 23,954 |
109/01/20 | 35,551,203 | 11,865,436,839 | 334.00 | 335.50 | 333.00 | 333.00 | 0.00 | 15,095 |
109/01/30 | 126,820,049 | 40,734,449,874 | 326.00 | 326.00 | 316.50 | 316.50 | -16.50 | 55,603 |
109/01/31 | 62,912,055 | 20,205,365,710 | 323.00 | 323.50 | 319.00 | 320.00 | 3.50 | 22,639 |
接著我們從資料庫取得台積電的資料,也是取得一月的部分進行比對:
日期 | 開盤價 | 最高價 | 最低價 | 收盤價 | 成交數 |
---|---|---|---|---|---|
2020-01-02 | 332.500 | 339.000 | 332.500 | 339.000 | 31754120 |
2020-01-03 | 344.000 | 345.000 | 335.500 | 339.500 | 41811268 |
2020-01-06 | 333.000 | 334.500 | 332.000 | 332.000 | 45343057 |
2020-01-07 | 332.500 | 333.000 | 326.500 | 329.500 | 50879181 |
2020-01-08 | 325.000 | 333.000 | 325.000 | 329.500 | 37567748 |
2020-01-09 | 335.000 | 337.500 | 333.500 | 337.500 | 31481504 |
2020-01-10 | 340.500 | 341.000 | 336.000 | 339.500 | 27032115 |
2020-01-13 | 342.000 | 342.000 | 339.000 | 341.500 | 30663332 |
2020-01-14 | 345.500 | 346.000 | 344.500 | 346.000 | 30223993 |
2020-01-15 | 345.000 | 345.000 | 337.500 | 340.000 | 47434274 |
2020-01-16 | 330.000 | 336.500 | 330.000 | 334.500 | 55211420 |
2020-01-17 | 334.000 | 335.500 | 332.000 | 333.000 | 52060097 |
2020-01-20 | 334.000 | 335.500 | 333.000 | 333.000 | 32658203 |
2020-01-30 | 326.000 | 326.000 | 316.500 | 316.500 | 125451049 |
2020-01-31 | 323.000 | 323.500 | 319.000 | 320.000 | 62526055 |
觀察一下,價格都沒有錯誤,但是在成交量的地方,卻對不起來。如果只要用價格進行分析,是沒有問題的,但是如果要把數量放進去,卻發現Yahoo的成交數與證交所的不同,而且對不起來。不僅僅是Yahoo,連google也是,雖然說「"volume" - 指定日期的成交量
」,但是卻對不起來,不知道數據從哪邊取得。
思考後,我們要重新去得交易資料,而這次因為有成交量的關係,我們直接從證交所取得吧!這邊是最準確的
無論是一般的資料分析,到大數據分析,準確性都取決於資料的乾淨程度與正確性。藉由這幾個範例,可以知道,第三方的資料儘管很具有權威,但是來源不清楚情況下,仍然有機會讓我我們分析有偏頗。為了最準確的資料性,明天開始就要使用交易所的資料囉!也就是開始爬蟲
(感覺比別人慢很多XD)