~ 資料市集 ~
今天呢我們來看看 AWS 上面的資料市集吧
AWS Data Exchange 是一項服務,可讓AWS客戶輕鬆尋找、訂閱和使用中的第三方資料AWS 雲端。~ by AWS ~
比較像是 Data Marketplace 的服務,可能是為了更凸顯資料交換的意義
這個服務用 AWS CLI 也是可以的,不過既然是市集,使用 web 瀏覽器應該比較有逛街的感覺吧
首先我們登入 AWS 後進入 Data Exchange 這項服務,在搜尋欄上打上 Stock Data,找到這項服務
20 Years of End-of-Day Stock Data for Top 10 US Companies by Market Cap
這個服務可以有一年的免費訂閱,我們先訂閱他,然後取消自動訂閱設定
取消訂閱設定會在 My subscriptions 下面的 Subscriptions 裡面,選擇我們剛剛訂閱的項目,會出現訂閱明細,Renewal terms 設定為 Off 就行了
接著,我們需要把我們訂閱的資料匯入到我們自己的 S3 Bucket 裡面,一樣在訂閱明細往下拉,可以找到 Entitled data sets 這個區塊,直接點擊名稱打開新的頁面
注意到此時地區更改為 Ohio 了
選擇左邊的項目,全選所有的 assets,右邊的 Export Action 選擇 Export selected assets to Amazon S3
接著會要你選擇要 export 到哪一個 S3 Bucket,沒有準備的話要先到 S3 服務裡面新增一個唷,我們選擇 algotrading-2023-09 也可以選擇特定的 Bucket folder 這裡我直接 export 到 Bucket 的根目錄,其他維持預設選項,最後點選右下角 Export
之後我們到 S3 Bucket 裡面看,我們就有簡單的回測資料可以用了
Data Exchange 這項服務提供了簡單的方法可以立即產生資料讓我們做一些測試或是架構驗證,因為進階數據大多數都還需要另外付費使用,不過就免費的資料集而言,內建的搜尋&關聯系統讓我們可以很容易地獲取領域相關的免費數據
另外 AWS 也提供了 Open Data Exchange 的服務:
Open Data On AWS Data Exchange
進去後可以點選任何項目查看存放的 S3 Bucket:
使用指令 aws s3 ls 查看內容,這些 Bucket 是不需要簽署的 request 就可以訪問:
$ aws s3 ls --no-sign-request s3://intelinair-data-releases/longitudinal-nutrient-deficiency/
2023-03-02 17:55:31 11065819 Dadsetan_AAAI2021_LongitudinalNutrientDeficiency.pdf
2023-03-02 17:55:32 44315 Longitudinal Nutrient Deficiency Dataset Terms of Use 2021.pdf
2023-03-02 17:55:32 1907064673 Longitudinal_Nutrient_Deficiency.zip
可以使用 aws s3 cp 下載檔案(最後要加個'.'):
$ aws s3 cp --no-sign-request s3://intelinair-data-releases/longitudinal-nutrient-deficiency/Dadsetan_AAAI2021_LongitudinalNutrientDeficiency.pdf .
https://docs.aws.amazon.com/zh_tw/data-exchange/latest/userguide/what-is.html