iT邦幫忙

第 11 屆 iThome 鐵人賽

DAY 20
0
Google Developers Machine Learning

初心者的GDC攻略系列 第 20

Day20: 特徵 x 選擇 x 關聯

  • 分享至 

  • xImage
  •  

從原始資料到有意義的特徵

課程中開宗明義提及的範例,是如何去預測房價。

這邊推薦大家可以去看台大資工系林軒田教授的機器學習基石系列

為什麼會選擇某些特定的特徵來求得預測結果呢?而且是選擇採用機器學習?
可能有一個重大的前提,那就是要相信收集到的資料與預測結果有某種關係
比如說:

  1. 親代的拇指彎曲,子代拇指彎曲的比例就會相當高,而呈現直挺的狀況比例較少。
  2. 暴露在PM2.5濃度高的環境下的人群,似乎會有較高比例的呼吸道疾病發生。

以上這些就是觀察 + 收集資料步驟要做的事情;而我們常用的方法就是Exploratory Data Analysis(EDA)。
透過圖表(散布圖/累計圖/直方圖)等,將這層關聯特性確立,然後就開始尋找所謂的特徵了。

什麼叫好的特徵

https://ithelp.ithome.com.tw/upload/images/20191006/20120151GkTJaaflDA.png
這裡用我個人的詮釋:

  1. 可以透過實驗或日常生活觀察所得到之預測行為。
    常常有民間傳說或地下街會出現的算命,到底算不算符合這個項目呢?
    我想如果沒有辦法讓其他人在能明確重現的狀況下,無法達成這個條件。
  2. 這就是所謂的時序因果律(Time-Series Causality)。
    人只有活在當下才能做決定,如果能像守護者裡面的曼哈頓博士一樣,就只是做出選擇罷了。
    當有預測的行為,就必須明確知道何者為因何者為果。
  3. 數字型資料有利於模型的殘差分析。而三一律的大小關係有利於看出整體的趨勢變化。
  4. 資料為本。有資料為預測,無資料為預言。
  5. 不聽老人言,吃虧在眼前。

上一篇
Day19: CMLE淺談
下一篇
Day21: 數字 x 編碼 x 解讀
系列文
初心者的GDC攻略30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言