iT邦幫忙

第 12 屆 iT 邦幫忙鐵人賽

DAY 14
0

我們做了幾天的教學,已經把資料從Yahoo取得,並且放在Azure的SQL server中。但我們忽視一件重要的事情,就是資料的正確性。
今天我們就拿證交所的資料跟資料庫收集的資料做比對吧!


證交所股票資料

我們會需要從臺灣證券交易所那邊取得台積電(2330)的股票資料,觀察今年一月的資料是否跟資料庫的資料相同。其中有裡面包含:日期成交股數成交金額開盤價最高價最低價收盤價漲跌價差成交筆數等資料,我們也有日期開盤價最高價最低價收盤價成交量,屆時可觀察其中是否有差異。

取得交易資訊

首先去到個股日成交資訊取得成交資料。

在畫面中,我們選擇109年1月,在股票代碼那邊輸入「2330」之後按搜尋,會得到下表:

日期 成交股數 成交金額 開盤價 最高價 最低價 收盤價 漲跌價差 成交筆數
109/01/02 33,282,120 11,224,165,450 332.50 339.00 332.50 339.00 8.00 17,160
109/01/03 42,023,268 14,295,651,580 344.00 345.00 335.50 339.50 0.50 20,545
109/01/06 45,677,057 15,210,531,318 333.00 334.50 332.00 332.00 -7.50 22,944
109/01/07 51,746,181 17,053,282,011 332.50 333.00 326.50 329.50 -2.50 22,362
109/01/08 37,913,748 12,484,410,088 325.00 333.00 325.00 329.50 0.00 18,228
109/01/09 32,397,504 10,890,847,940 335.00 337.50 333.50 337.50 8.00 16,793
109/01/10 27,880,115 9,432,320,316 340.50 341.00 336.00 339.50 2.00 13,296
109/01/13 30,663,332 10,455,852,739 342.00 342.00 339.00 341.50 2.00 13,457
109/01/14 30,368,993 10,488,360,978 345.50 346.00 344.50 346.00 4.50 16,339
109/01/15 54,575,274 18,590,754,206 345.00 345.00 337.50 340.00 -6.00 20,392
109/01/16 58,217,420 19,431,133,895 330.00 336.50 330.00 334.50 -5.50 24,721
109/01/17 53,908,097 17,977,119,406 334.00 335.50 332.00 333.00 -1.50 23,954
109/01/20 35,551,203 11,865,436,839 334.00 335.50 333.00 333.00 0.00 15,095
109/01/30 126,820,049 40,734,449,874 326.00 326.00 316.50 316.50 -16.50 55,603
109/01/31 62,912,055 20,205,365,710 323.00 323.50 319.00 320.00 3.50 22,639

比對Yahoo的資料

接著我們從資料庫取得台積電的資料,也是取得一月的部分進行比對:

日期 開盤價 最高價 最低價 收盤價 成交數
2020-01-02 332.500 339.000 332.500 339.000 31754120
2020-01-03 344.000 345.000 335.500 339.500 41811268
2020-01-06 333.000 334.500 332.000 332.000 45343057
2020-01-07 332.500 333.000 326.500 329.500 50879181
2020-01-08 325.000 333.000 325.000 329.500 37567748
2020-01-09 335.000 337.500 333.500 337.500 31481504
2020-01-10 340.500 341.000 336.000 339.500 27032115
2020-01-13 342.000 342.000 339.000 341.500 30663332
2020-01-14 345.500 346.000 344.500 346.000 30223993
2020-01-15 345.000 345.000 337.500 340.000 47434274
2020-01-16 330.000 336.500 330.000 334.500 55211420
2020-01-17 334.000 335.500 332.000 333.000 52060097
2020-01-20 334.000 335.500 333.000 333.000 32658203
2020-01-30 326.000 326.000 316.500 316.500 125451049
2020-01-31 323.000 323.500 319.000 320.000 62526055

觀察一下,價格都沒有錯誤,但是在成交量的地方,卻對不起來。如果只要用價格進行分析,是沒有問題的,但是如果要把數量放進去,卻發現Yahoo的成交數與證交所的不同,而且對不起來。不僅僅是Yahoo,連google也是,雖然說「"volume" - 指定日期的成交量」,但是卻對不起來,不知道數據從哪邊取得。

思考後,我們要重新去得交易資料,而這次因為有成交量的關係,我們直接從證交所取得吧!這邊是最準確的


後記

無論是一般的資料分析,到大數據分析,準確性都取決於資料的乾淨程度與正確性。藉由這幾個範例,可以知道,第三方的資料儘管很具有權威,但是來源不清楚情況下,仍然有機會讓我我們分析有偏頗。為了最準確的資料性,明天開始就要使用交易所的資料囉!也就是開始爬蟲
(感覺比別人慢很多XD)


上一篇
【Day13】Azure資料庫#5:匯入資料
下一篇
【Day15】取當天交易資料
系列文
Pyhon X 金融分析 X Azure31

尚未有邦友留言

立即登入留言