iT邦幫忙

2019 iT 邦幫忙鐵人賽

DAY 29
0

這部分的內容應該已經告一個段落,剩下三個Youtube介紹 real-world examples而已,但還有另外兩個大項目Problem FramingData Preparation and Feature Engineering沒有辦法go through到,就要留給大家自己去研讀了。

Ref.:
癌症預測的例子中,有一個小互動。在Training的時候把年齡、性別、醫院名稱、症狀這些feature丟進model,訓練出來的model可能會存在哪些問題?
醫院名稱可能隱含一些資訊(像是他是專門看癌症的醫院),會讓訓練結果認為大部分去那間醫院的,都很有可能患有癌症。所以Feature暗喻的結果也是我們需要考慮進去的因素。

Ref.:
這篇主要提起的一個觀念是:雖然我們有Randomize,但是不是在正確的Scope下Randomize?
如果我們的datasets已經按照某種分類切割好,在那個分類裡Randomize也沒有用處,你會看到妳的set會有很大的Data skew。最後也做了兩個總結:

  1. 仔細考慮你要怎麼切你的data
  2. 知道你data到底代表什麼意思

Ref.:
這邊做了六個Guideline:

  1. 保持第一個model簡簡單單
  2. 確保資料流向的正確
  3. Training跟Validation時用些簡單、可觀察metric,確認結果是否如你的預期
  4. 監測你的input feature
  5. Model的設計可以像code review一樣被team review & check
  6. 把不論成功或失敗的結果都記錄下來,讓之後debug可以更方便,也不會忘了到底有沒有run過某個case

上一篇
[Day 28] Fairness(下)
下一篇
[Day 30] Machine learning crash course最後的總結
系列文
跟著Google學ML30

尚未有邦友留言

立即登入留言