今天我們就要把昨天建立好的 data 匯入成 Datastore 了。
還記得 Datastore 扮演了 connector 的角色嗎?現在我們來建立 Datastore,大家就會明白我為什麼這麼說了。
進入 studio 的首頁頁面,點選左邊下面的 Datastores。
我們可以看到,已經有一些 Datastores 在裡面了,不過我們不要管它們,因為我們要使用昨天建立 Blob。點擊畫面左上的 New Datastore。
這時候畫面右邊會跳出一個視窗,欄位說明如下:
Storage type 我們也可以選擇其他的 SQL 資料庫。不過為了 DEMO 方便就用 Blob。
要取得步驟3中需要的 account key,我們要先回到昨天建立的 storage account。在左邊的 blade 選單中找到 Access keys,然後點選上方的 Show Keys,就可以複製 Key 到建立 Datastore 的視窗中。
建立好我們自己的 Datastore 後,就可以在畫面中間看到它了。
在左邊的選單中找到 Datasets,點中間的 Create dataset,我們可以看到有許多種方式可以建立 dataset,我們選擇 from datastore。
點下去之後,右邊會跳出個視窗。我們幫這個 Dataset 取名字,然後選擇 Tabular,因為鐵達尼號的資料是表格的型式。
下一步就是選擇你要用哪個 datastore,我們就選擇剛剛建立的那個。
然後選擇裡面我們昨天上傳的檔案。
我們可以看到 AML 會自動幫我們解析這個 CSV 檔。欄位都列出來了,CSV 檔的格式、還有表頭的設定等等的,都幫我們做好了。
接著它會列出 schema,你可以選擇哪些欄位要、哪些欄位不要,像我就把 passager id 這個欄位給取消掉。
最後就是一個確認和建立的動作。
建立之後我們就可以看到剛剛的 Dataset 出現在畫面中間了。
我們可以點擊進去裡面看看。像是資料的版本控制,也可以透過 New vision 來上新版本的資料。
如果點擊 consume 這個 tab,我們可以看到使用這個 dataset 的程式碼都幫你生成好了。
點擊 Explore 的話,還可以看到一些直方圖。
到此為止,我們就成功把資料集建立到 Azure Machine Learning 裡面啦!
我們再來總結一下: