Azure Machine Learning Studio 文字分析 Preprocess Text - iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

2019 iT 邦幫忙鐵人賽

DAY 26

0

Everything on Azure

Azure Machine Learning Studio系列第 26 篇

Azure Machine Learning Studio 文字分析 Preprocess Text

2019鐵人賽 azure machine learning

2018-11-08 22:39:23

2314 瀏覽

分享至

若資料集有包含大量文字，而且需要使用此資料來協助預測，在 Azure Machine Learning Studio 中，可以使用 Preprocess Text 來處理文字資料，目前支援 6 種語言：

英文
西班牙文
法文
荷蘭文
德文
義大利文

Preprocess Text 文字分析可以執行以下處理，Ex：清除 the , a 等常見單字、數字、特殊字元、重複字元、電子郵件地址、URL...等文字，將單字轉為小寫，句子間用 ||| 隔開：

【Dataset】新增資料集：Book Reviews from Amazon 書籍評價資料集，包含兩個欄位，一個是評分，一個是文字評論
【Edit Metadata】將評分欄位 Col 1 設為 Make categorical
【Group Categorical Values】新增 Group Categorical Values ，將評分欄位 Col1 的值分為低分、高分兩種
【Preprocess Text】新增 Preprocess Text，選擇 Col2 文字評論欄位，使用預設勾選的文字處理，可以清除雜訊資料，找出重要的特徵

可以看到新的欄位 Preprocessed Col2 為 Col 2 的文字處理後的結果
【Split Data】將資料切分為訓練集、測試集資料
【Extract N-Gram Features from Text】新增 Extract N-Gram Features from Text，從剛剛處理過的文字中，選取與預測目標最相關的特徵

設定以下屬性：
【Train Model】訓練模型
【Two-Class Logistic Regression】二元分類邏輯迴歸分析
【Extract N-Gram Features from Text】再新增一個 Extract N-Gram Features from Text，來處理測試資料集
【Score Model】計分模型：執行預測

設定以下屬性：
【Evalute Model】評分模型：查看預測結果

參考文章：在 Azure Machine Learning Studio 中建立文字分析模型

Azure Machine Learning Studio 推薦模型 Train Matchbox Recommender

Azure Machine Learning Studio 使用 SQL 語法 Apply SQL Transformation

系列文

Azure Machine Learning Studio 共 30 篇

目錄

RSS系列文訂閱系列文

21 人訂閱

完整目錄

尚未有邦友留言

立即登入留言

參賽組數

1064 組

團體組數

40 組

累計文章數

22211 篇

完賽人數

600 人

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# windows server linux css react vue.js