iT邦幫忙

第 11 屆 iT 邦幫忙鐵人賽

DAY 6
0

本篇對應 How Google does Machine Learning Module 4

為啥要取樣?為了什麼?

對於在高中數學學過簡單統計的各位,讓我們來回顧一下:
一般來說,如果我們想簡單描述我們看到的資料究竟有什麼特性(特徵)可以讓別人了解到底看到了什麼,也許我們可以提出

  1. 平均數
  2. 標準差
    來簡要描述面前的資料大致上長成什麼樣。
    不過這牽涉了幾個前提,其一就是分布狀態為何。
    用平均數和標準差,通常隱含著整體為標準分布才能這樣描述。
    否則在偏態的分布下,平均數無法真實呈現實情。

舉例來說,如果月薪24k的人和全國首富250B的人,兩人平均年薪約125B,所以平均年收入很高,我們該推動物價上漲500%,其合理性不言而喻。

公說公有理

方法有百百種,機器學習也不例外。
那麼哪個方法比較好或者說比較實用?


上一篇
Day5: 經驗 x 道路 x 深究
下一篇
Day7: 雲端 x 平台 x LAB
系列文
初心者的GDC攻略30

尚未有邦友留言

立即登入留言