[DAY14] 在 Azure Machine Learning 裡 Label data（下）

13th鐵人賽 azure azure machine learning

大魔術熊貓工程師

2021-09-29 21:39:18

1685 瀏覽

分享至

DAY14 在 Azure Machine Learning 裡 Label data（下）

我們昨天建立好 Label 專案之後，今天就來進行資料標記吧！

開始進行 Data Labeling

我們點進去專案之後，可以看到一個 Dashboard，這裡會顯示你這個標記專案的進度。我們點擊左上的 Label Data。
接著會先進入 Instructions 的部份，可以看到我們昨天輸入的內容。這裡我們再補充一下寫 Instructions 的原則，根據微軟的建議如下:

他們會看到什麼標籤，以及要如何從中選擇？是否有參考文字可供參考？
如果看起來沒有合適的標籤，該怎麼辦？
如果有多個看起來合適的標籤，該怎麼辦？
應該對標籤套用怎樣的信賴度臨界值？是否要他們在不確定時「盡其所能地猜測」？
若關注的物體有局部遮蔽或重疊的情形，該怎麼辦？
若關注的物體在影像邊緣遭到裁剪，該怎麼辦？
如果他們在提交標籤後發現作業有誤，應怎麼做？

真實世界的專案千萬不要像下圖隨便寫寫啊 XDD
Label Data in Azure Machine Learning

接著我們就可以開始進行標記啦！我們可以在右邊的選單，針對這一項是什麼，開始進行標記。

右上有分格的框框，那個是可以讓你一次看很多張以進行標記。
中間上方有操作功能，依序可以調整大小、亮度、對比、看屬性、跳過、全螢幕。
標記完成後，可以點左下角的 Submit，就可以繼續標記下一張。

標記幾張後，我們可以回到主頁面，可以看到 Dashboard 有所變化了。
我們離開 Dashboard 的頁簽，進入 Data 的頁簽，點左邊選單的 Labeled Data，可以來檢查這些 Label 是否正確或合格。如果不行的話，可以按 Reject。
我們把所有的資料標註好之後，回到 Dashboard，點擊上方 Export。這裡有三種 Export 的格式，CSV 就是 CSV，COCO 是另一種資料集標註的格式，可以參考 COCO Dataset 的網站。我們這裡選 Azure ML Dataset。
資料量不多的話，很快就會輸出好了。我們進到 Datasets 裡，就會看到剛剛標記過的資料集啦！

在 AML 裡使用影像集資料

我們點進資料集，到 Consume 的頁簽，把程式碼複製下來。這裡的程式碼只是把 Dataframe 叫出來而已，還不太符合我們的需求。
打開 Notebook 開新檔案，我們要用 azureml-contrib-dataset 來下載我們的圖檔。我們輸入以下程式碼：
（如果沒有 azureml-contrib-dataset，可以用此指令安裝 pip install azureml-contrib-dataset ）

import azureml.core
import azureml.contrib.dataset
from azureml.core import Dataset, Workspace
from azureml.contrib.dataset import FileHandlingOption

from azureml.core import Workspace, Dataset
import azureml.contrib.dataset

subscription_id = '<Your subscription ID>'
resource_group = '<Your resource group>'
workspace_name = '<Your workspace name>'

workspace = Workspace(subscription_id, resource_group, workspace_name)

pokemon_dataset = Dataset.get_by_name(workspace, name='<Your dataset name>')
pokemon_pd = pokemon_dataset.to_pandas_dataframe(file_handling_option=FileHandlingOption.DOWNLOAD, target_path='./download/', overwrite_download=True)

import matplotlib.pyplot as plt
import matplotlib.image as mpimg

#從 dataframe 裡把圖檔讀出來
img = mpimg.imread(pokemon_pd.loc[0,'image_url'])
imgplot = plt.imshow(img)

然後可以看到如下圖的結果。
Label Data in Azure Machine Learning