iT邦幫忙

2019 iT 邦幫忙鐵人賽

DAY 24
1

[DAY24] 使用Azure Machine Learning Studio做自然語言情感分析(1):資料處理及分類篇

前面的文章正好把應用程式的開發及部署都講的差不多了,正愁著不知道剩下的篇章要寫什麼主題的我,突然靈機一動!

正巧我線上修的自然語言分析(Natural Language Processing)課程要繳交Tech Review報告(Deadline快到啦啊啊啊),還正在IT邦趕工30篇的我,突然想到一個一石二鳥的方法!就是撰寫使用Azure Machine Learning Studio 打造自然語言分析引擎!!!我是不是太聰明了。
/images/emoticon/emoticon01.gif
至於我在修什麼課程,大家可以參考我這篇:美國遠距資料科學碩士學位(UIUC MCS-DS)

大家有沒有印象中我們在前面Logic App,也有使用Azure的Text Analytic Service協助我們做自然語言情感分析呢?忘記的話可以參考連結:情緒分析監控系統

但是在那個範例中,AI的部分是一個黑盒子,我們不能調整也不知道是怎麼實作的。在這個範例我們將帶大家自行實作我們的情感識別引擎喔!

我們可以來搭建一個自然語言分析引擎,分析IMDB電影的評論資料。
目前我們手頭上有一份資料,有人工標記好這個評論是正向的或是負面的,做為我們的訓練資料。

實作:資料處理及分類篇

在這個章節我們將先做簡單的資料處理及分類喔!!

1.建立Machine Learning Studio Workplace Reource

2.設定Resource相關內容

3. 選擇啟動Machine Learning Studio

4. 到Machine Learning Studio的頁面後,點選Create Project,輸入專案的相關資料

5. 點選DATASET > FROM LOCAL FILE 匯入資料集

下載資料來源:IMDB資料集來源

匯入資料集

6. 選擇EXPERIMENT > Blank Experiment ,準備來搭建我們的服務囉!

7. 我們先選擇Saved Datasets > My Datasets > IMDb_Reviews.csv(我們剛才加進來的資料夾),把資料集拖曳(Drag)到工作區上

8.拖曳完成後,對資料集按右鍵,點選dataset > Visualize(視覺化)

9. 點選 sentiment,可以看到我們的Missing Values是0,幸運的我們可以不用處理缺少值的資料~(有點太偷懶了XDDD)

(資料集介紹:是IMDB網站蒐集電影評論的資料。Review是評論的內文細節,Sentiment是人工Label出的類型,數字1代表正面,數字0代表負面)

10. 接下來我們要來Label類別,我們點選Data Transformation > Manipulation > EditMetadat,並拖曳到工作區上

11. 手動將IMDb_Reviews.csv資料集的資料,串接到Edit Metadata(這邊有點像資料的PIPELINE,一層一層處理)

12. 設定Edit Metadata: 點選Edit MetaData > 選擇Launch column selector

選擇sentiment,點選往右的箭頭>

打勾按確定

目前我們已選擇Sentiment,我們將用它作為我們分類的依據,這邊選擇Make Categorical

13.我們將再新增一個元件,Group Categorical Values(順便將他跟Edit Metadata連起來喔),要將0歸類為負面,1歸類成正面。

選擇Launch Column Selector

選擇Sentiment

14. 完成後點選執行(RUN)

15. 看到執行結果都是打勾後,喜歡趕快看到成效的我們可以來視覺化一下

16. 看到我們把原本010101的Label正向負向情緒的資料成功轉換成Positive及Negative了!

今天我們完成了資料清理的部分!
下一篇我們將進行到重頭戲---自然語言分析~~~

下一篇的快速連結在此:[DAY25] 使用Azure Machine Learning Studio做自然語言情感分析(2):自然語言分析資料過濾篇及NLP簡單概論

其實即使不寫程式你也能實作自然語言分析呢!

如果對實作自然語言的相關的演算法有興趣,可以參考我們老師在Coursera上教授的課程:Zhai老師課程連結

參考:

  1. https://www.youtube.com/watch?v=OkNUKYLxpZU
  2. https://docs.microsoft.com/zh-tw/azure/machine-learning/studio/text-analytics-module-tutorial

上一篇
[DAY23] 用Azure DevOps管理專案及自動化佈署
下一篇
[DAY25] 使用Azure Machine Learning Studio做自然語言情感分析(2):自然語言分析資料過濾篇及NLP簡單概論
系列文
30天手把手帶你趣學Azure☁️-初學者也能動手實作🙌🏻30

尚未有邦友留言

立即登入留言