05.資料獲取與處理的主要方式

2025 iThome 鐵人賽

DAY 5

自我挑戰組

17th鐵人賽

208 瀏覽

在演算法交易中，高品質的資料是策略成功的基石。
「Garbage in, garbage out」（垃圾進，垃圾出）。
資料處理的核心環節，是如何透過不同管道獲取原始資料，並將其轉化為乾淨、可用於分析的格式。以下是三種最主要的方式：

這是最專業、最穩定的資料獲取方式，直接透過應用程式介面 (API) 取得格式統一的結構化資料。

核心說明：透過程式碼請求，從資料提供商（如 Yahoo Finance、Quandl）或券商（如 Interactive Brokers）的伺服器直接下載所需的市場資料，例如歷史 K 線、即時報價、財報資訊等。
優點：
- 資料品質高：資料經過整理，格式標準化，錯誤率低。
- 效率與穩定性：相較於爬蟲，API 速度更快且不易因網站改版而失效。
- 即時性：許多券商 API 提供即時 (Real-time) 的市場資料流，是實盤交易的基礎。
挑戰與限制：
- 成本問題：高品質、高頻率或獨家的資料通常需要付費訂閱。
- 使用限制：免費 API 通常有請求次數限制（Rate Limiting），例如每分鐘或每天的查詢上限。
- 學習曲線：需要閱讀 API 文件，了解其參數設定與認證方式。
常用工具與平台：
- Python 函式庫：yfinance (Yahoo Finance)、pandas-datareader (整合多個財經資料源)、ccxt (專為加密貨幣交易所設計)。
- 資料服務商：Nasdaq Data Link (前身為 Quandl)、Refinitiv、Bloomberg 等。
- 券商 API：Interactive Brokers (IBKR)、Alpaca、OANDA、TD Ameritrade。

當所需資料無法透過 API 取得時，網路爬蟲便成為一種靈活的替代方案，特別適用於獲取另類資料 (Alternative Data)。

核心說明：編寫程式模擬瀏覽器行為，自動訪問網頁並從 HTML 原始碼中提取所需的非結構化資訊，例如新聞標題、論壇情緒、政府公告等。
優點：
- 資料來源廣泛：理論上可以從任何網站獲取公開資訊，擴展資料維度。
- 成本低廉：主要成本是開發與維護的時間，而非直接的資料費用。
- 高度客製化：可以根據策略需求，精準抓取特定欄位。
挑戰與限制：
- 合法性與道德風險：必須遵守網站的 robots.txt 規範與服務條款，避免對伺服器造成過大負擔。
- 程式脆弱性：網站結構一有變動，爬蟲程式就可能失效，需要頻繁維護。
- 反爬蟲機制：許多網站設有 CAPTCHA 驗證碼、IP 封鎖等機制，增加爬取難度。
- 資料清理成本高：抓取下來的原始資料通常雜亂無章，需要投入大量心力進行解析與清理。
常用工具與平台：
- Python 函式庫：Requests (發送網路請求)、Beautiful Soup (解析 HTML)、Scrapy (功能強大的爬蟲框架)、Selenium (用於操作動態加載內容的網頁)。

無論資料是透過 API 下載還是網路爬蟲收集，最終都需要載入程式進行處理。CSV 檔案是最通用、最基礎的資料儲存與交換格式。

核心說明：將資料儲存為 CSV (逗號分隔值) 格式後，利用程式庫載入記憶體。這個階段的重點是「資料清理 (Data Cleaning)」與「特徵工程 (Feature Engineering)」，確保資料的準確性與可用性。
優點：
- 通用性強：幾乎所有資料分析軟體和程式語言都支援。
- 適合離線分析：非常適合用於策略回測，可以重複使用同一份資料集。
- 簡單直觀：格式易於人類閱讀與編輯。
挑戰與限制：
- 不適用於即時資料：CSV 是靜態檔案，無法反映市場的即時變化。
- 效能瓶頸：對於超大資料集（GB 等級以上），讀取與處理效能較差。
- 資料版本管理：若資料源更新，需要手動或透過腳本重新下載與生成檔案。
核心任務與常用工具：
- 主要工具：Pandas 是 Python 資料分析的核心，提供強大的 DataFrame 物件。
- 資料檢視：使用 .info(), .describe(), .head() 等函式快速了解資料概況。
- 資料清理流程：
  1. 處理缺失值：使用 fillna() (填充) 或 dropna() (刪除)。
  2. 處理異常值：識別並修正極端或不合理的數值。
  3. 轉換資料型態：確保日期為 datetime、價格為 float 等正確格式。
  4. 處理重複值：使用 drop_duplicates() 移除重複的資料行。