iT邦幫忙

2019 iT 邦幫忙鐵人賽

DAY 14
1
Everything on Azure

Azure Machine Learning Studio系列 第 14

Azure Machine Learning Studio 彙總資料 Summarize Data

Azure Machine Learning Studio 的 Summarize Data 可以對資料集整體做一些基礎計算,用來了解資料的分布狀況,計算後的輸出結果為以下項目:

  • Feature 欄位名稱
  • Count 資料筆數
  • Unique Value Count 值不重複的資料筆數
  • Missing Value Count 缺失值資料筆數
  • Min 最小值
  • Max 最大值
  • Mean 平均數
  • Mean Deviation 平均差
  • 1st Quartile 第一四分位數
  • Median 中位數
  • 3rd Quartile 第三四分位數
  • Mode 眾數
  • Range 資料範圍(最大值-最小值)
  • Sample Variance 樣本變異數
  • Sample Standard Deviation 樣本標準差
  • Sample Skewness 樣本偏度
  • Sample Kurtosis 樣本峰度
  • P0.5 0.5% 百分位數
  • P1 1% 百分位數
  • P5 5% 百分位數
  • P95 95% 百分位數
  • P99 99% 百分位數
  • P99.5 99.5% 百分位數

Summarize Data 彙總資料

位置:Statistical Functions / Summarize Data

  1. 新增 Adult Census Income Binary Classification dataset Census Income dataset 成人收入調查的二元分類資料集,新增 Summarize Data 彙總資料,將資料集輸出接至 Summarize Data 的輸入,點選滑鼠右鍵或直接點下方功能鈕執行計算
    https://ithelp.ithome.com.tw/upload/images/20181027/201119352vg9Y5aP15.png

  2. 執行完成後,點選 Visualize 檢視計算結果
    https://ithelp.ithome.com.tw/upload/images/20181027/201119356lkTvK7MWT.png

  3. 計算結果如下兩圖,以 age 年齡資料欄位來看:

  • Count 資料筆數 = 32561筆
  • Unique Value Count 值不重複的資料筆數 = 73筆
  • Missing Value Count 缺失值資料筆數 = 0筆,無缺失值
  • Min 最小年齡 = 17歲
  • Max 最大年齡 = 90歲
  • Mean 平均年齡 = 38.581647歲
  • Mean Deviation 年齡平均差 = 11.189182歲
  • 1st Quartile 第一四分位數 = 28歲
  • Median 年齡中位數 =37歲
  • 3rd Quartile 第三四分位數 = 48歲
  • Mode 眾數 = 36歲,代表年齡為36歲的資料筆數最多
  • Range 範圍 = 最大90歲 - 最小17歲 = 73歲
  • Sample Variance 樣本變異數 = 186.0614
  • Sample Standard Deviation 樣本標準差 = 13.640433
  • Sample Skewness 樣本偏度 = 0.558743
  • Sample Kurtosis 樣本峰度 = -0.166127
  • P0.5 0.5% 百分位數 = 17歲
  • P1 1% 百分位數 = 17歲
  • P5 5% 百分位數 = 19歲
  • P95 95% 百分位數 = 63歲
  • P99 99%百分位數 = 74歲
  • P99.5 99.5% 百分位數 = 78歲

https://ithelp.ithome.com.tw/upload/images/20181027/20111935dXNqr8cfrz.png

https://ithelp.ithome.com.tw/upload/images/20181027/20111935E6p1L1cZMF.png

  1. 非數值資料僅可計算其 Count 資料筆數、Unique Value Count 值不重複的資料筆數、Missing Value Count 缺失值資料筆數
    https://ithelp.ithome.com.tw/upload/images/20181027/20111935tGrrW7TGFB.png

  2. 除了 Summarize Data 可以計算這些統計結果以外,直接右鍵點選檢視資料集也可以看的到部分的計算值
    https://ithelp.ithome.com.tw/upload/images/20181027/20111935Vxl4uSh6ve.png

  3. 可以看到以下計算結果:

  • Count 資料筆數
  • Unique Value Count 值不重複的資料筆數
  • Missing Value Count 缺失值資料筆數
  • Min 最小值
  • Max 最大值
  • Mean 平均數
  • Mean Deviation 平均差
  • Mode 眾數

https://ithelp.ithome.com.tw/upload/images/20181027/20111935X1dMnWyTpQ.png


上一篇
Azure Machine Learning Studio 特徵篩選 Filter-Based Feature Selection
下一篇
Azure Machine Learning Studio 選擇演算法
系列文
Azure Machine Learning Studio30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言