建立了計算資源後,接下來要建立及處理有關資料的部分。
在Microsoft Azure Machine Learning Studio的左邊選單中,Assets區可看到Datasets;而在Manage區,卻可看到Datastores。此二者就究竟有何區別呢?
Datasets 就是資料集,可以直接從資料集取得資料,直接在 Azure Machine Learning 裡面使用這些資料,來進行 Models的Training and Validation。
Datastores 就比較容易令人困惑不解。根據微軟的官方文件,Datastore 是儲存連線資訊的地方,並且將資訊保護在 key vault 裡面以確保取得資料時的安全。
不妨將 Datastores 理解成 Data Connector 的概念。它儲存資料的連線資訊,例如資料在SQL database 裡,或者在 Azure Blob 裡,我們就可以透過 Datastores ,安全地取得資料。
當我們建立了Azure Machine Learning的workspace時,會自動產生一個 Blob.
但這是給Azure Machine Learning 使用的,強烈不建議將你的 data 上傳到這個 Blob 裡。我們最好另外建立放data的地方,除了安全,也方便管理及應用。建立流程如下:
建立storage account(可用先前已建立者)。
點擊storage account名稱,進入storage account畫面<AZ-stracc.png>。建立新的container(data storage container,not Dock container)。
點擊container名稱,進入container畫面<AZ-container.png>。就可以upload 資料了。
<AZ-stracc.png>
<AZ-container.png>
此時,我們可以將 \nni\examples\trials\mnist-pytorch\data\MNIST\raw的資料,已經解壓縮者,全部傳上。