【Day28】4th：機器學習＋現實世界－癌症預測

第 11 屆 iThome 鐵人賽

DAY 28

Google Developers Machine Learning

Machine Learning（by Google）系列第 28 篇

11th鐵人賽 machine learning machinelearning google

eyelash*睫毛

2019-10-13 23:55:00

2438 瀏覽

分享至

開始說明機器學習與現實世界的互動，本篇說明癌症預測

文章：ML Systems in the Real World: Cancer Prediction

Google 曾經做過一個機器學習的預測，他們從病例中取得特徵，打算歸納出病患罹患癌症的可能性，像是病患的年齡、性別、醫療狀況、醫院名稱、生命體徵、檢驗結果等等。在訓練的時候，很仔細的訓練，避免訓練資料與測試資料混淆，並且設計出很優秀的模型。
但是發生一件事情，就是當把這個模型放在新的病患身上，卻不如預期的好。到底為何如此呢？
因為在這個模型的特徵中，有一個為醫院名稱。為什麼醫院名稱是個問題點呢？因為在現實中，並不是每個癌症病患會去名為「癌症」的醫院進行看診，有時候會去別的綜合醫院。或是某些醫院雖然名稱沒有「癌症」，但是它卻是癌症的專門醫院（像是台大醫院，無法從名字得知與癌症有密切關連）。這個名稱上的欺騙，就是一種誘導性的特徵，讓資料容易發生錯誤，這就叫做標籤洩漏（label leakage）。
這個標籤洩漏，就是把情報洩漏到特徵中，讓特徵受到它的特性而影響，文中範例是有醫院名稱這個特性，其受名稱欺騙，進而影響模型的建置。
這樣的錯誤在現實中常發生，不得不注意。