經過了幾次我們對於電腦內的表格或是Orange內分享的資料集進行分析,那其實數據有著許多型式,包括圖像、表格、文本或一段音頻等等,那今天我要為大家介紹的,是如何用Orange將圖像轉換為數字數據,讓電腦能執行機器學習。
好啦~前言至此,我們開始吧!
首先,我們先找到Orange中的「Options」,點開「Add-ons」,將當中的「Image Analytics」安裝起來,接著就可以關掉並重啟Orange,就會在左邊的組件欄囉~(相信大家對這個步驟已經相當熟悉啦XD)
接下來,我是下載Orange提供的圖檔包,我是到Orange的官網進入「Image Analytics: Clustering」,當中有一行「Images of domestic animals」,按下其連接的超連結,就可以進入Github,按下左邊的Download即可完成下載步驟。那因為怕大家覺得需要繞這麼一大圈有些麻煩,所以我也有在圖檔包這個關鍵字幫大家超連結囉!(想說讓大家知道一下圖檔於正常流程中是如何下載而來的~
下載完後,內容應該就是這些~(小雞超可愛的啦
將照片匯入檔案,可從「Image Viewer」檢視內容,而我們可以發現連接「Data Table」後,內容是照片的大小及資料來源,無法做機器學習,所以我們要再對這份資料進行處理。
我們將用深度神經網路把照片轉換成向量,而此向量又稱為圖像嵌入(Image Embedding),也就是將圖像嵌入至一個多為的空間中。
而「Image Embedding」這個組件是將圖像傳送到服務器,並且遠程地計算嵌入。
補充說明
深度神經網路(DNN, Deep Neural Network)
由幾百萬個照片上訓練的模型,而通常它具有兩層或兩層以上隱藏層的神經網路,所以我們稱它為深度神經網路。
點開被處理過的數據資料表(Data Table),會發現裡面出現了額外地2048個數據,可以讓我們進行機器學習圖像分析使用。
接著,我們可以來對這些處理過的圖像進行比較與運算其相似性啦~
連上「Distances」,將內容改成用Cosine(餘弦定理)來最佳處理圖像分析。
再來,將數據傳送至「Hierarchical Clustering」,再接「Image Viewer」觀察數狀圖對於圖像的相似性呈現。 (Distances連接Hierarchical Clustering的舉動,詳細解說在第九篇有提過呦~)
放兩邊照看,更為清楚~
到此,大家可能會覺得這些照片都是很相似的畫風,但其中一張圖完全可以合理地解釋這個演算法真的有其實用性地!
以下這張圖右邊有一隻歐洲乳牛(Milka),照片風格與其他相當不一樣,但也被良好地歸類了!
大家也可以試試其它照片輸入至你的檔案中,看看它們是否有被正確歸類呢~Have fun~