[Day 29] Real-world examples

2019 iT 邦幫忙鐵人賽

DAY 29

AI & Data

跟著Google學ML系列第 29 篇

2019鐵人賽 machine learning

Joseph-bug

2018-10-29 23:35:17

1886 瀏覽

分享至

這部分的內容應該已經告一個段落，剩下三個Youtube介紹 real-world examples而已，但還有另外兩個大項目Problem Framing跟Data Preparation and Feature Engineering沒有辦法go through到，就要留給大家自己去研讀了。

Ref.: Cancer Prediction
Youtube:

癌症預測的例子中，有一個小互動。在Training的時候把年齡、性別、醫院名稱、症狀這些feature丟進model，訓練出來的model可能會存在哪些問題？
醫院名稱可能隱含一些資訊(像是他是專門看癌症的醫院)，會讓訓練結果認為大部分去那間醫院的，都很有可能患有癌症。所以Feature暗喻的結果也是我們需要考慮進去的因素。

Ref.: 18 Century Literature
Youtube:

這篇主要提起的一個觀念是：雖然我們有Randomize，但是不是在正確的Scope下Randomize？
如果我們的datasets已經按照某種分類切割好，在那個分類裡Randomize也沒有用處，你會看到妳的set會有很大的Data skew。最後也做了兩個總結：