在上一篇文章中,我提到台股收盤資訊的取得有許多不同的管道,每個資料來源都有它的特點與限制。為了讓資料更加全面,我決定將多個來源的資料整合起來,避免單一來源的不足,從而構建一個完整的報價資料庫。本篇我們先來講講每個資料來源的優缺點,並說明整合這些資料的目標與過程中可能遇到的複雜性。
優點:
缺點:
優點:
缺點:
優點:
缺點:
優點:
缺點:
我的計畫是以 FinMind 作為主要的資料來源,因為它的資料豐富又容易抓取。不過,考慮到有時候 FinMind 可能會有資料缺漏,我打算用 yfinance 和 XQ 來補足這些缺失,特別是 XQ 的資料會是我驗證資料的重要工具。透過這樣的整合方式,可以確保我們的資料完整又一致,避免只依賴單一來源而出現問題。最終目標就是打造一個完整又可靠的報價資料庫,為之後的數據分析和模型訓練打下穩固的基礎。
不過,這個整合資料的過程真的不簡單。首先,要處理不同資料來源之間的缺失值問題。意思是說,每當 FinMind 沒有某筆資料時,我就得動用其他來源來補上,這樣會讓資料格式轉換和對應變得有點複雜。
再來,資料的日期對齊也是一個大挑戰。不同來源的資料在特定交易日的數據可能會不一樣,我得一一比對這些日期,確保資料的準確性。另外,還有異常值的處理,有些資料來源的數據可能會突然大幅波動,這時候就需要把那些不合理的數據點剔除掉,確保最終的資料庫保持穩定。