開始說明機器學習與現實世界的互動,本篇說明癌症預測
文章:ML Systems in the Real World: Cancer Prediction
Google 曾經做過一個機器學習的預測,他們從病例中取得特徵,打算歸納出病患罹患癌症的可能性,像是病患的年齡、性別、醫療狀況、醫院名稱、生命體徵、檢驗結果等等。在訓練的時候,很仔細的訓練,避免訓練資料與測試資料混淆,並且設計出很優秀的模型。
但是發生一件事情,就是當把這個模型放在新的病患身上,卻不如預期的好。到底為何如此呢?
因為在這個模型的特徵中,有一個為醫院名稱
。為什麼醫院名稱
是個問題點呢?因為在現實中,並不是每個癌症病患會去名為「癌症」的醫院進行看診,有時候會去別的綜合醫院。或是某些醫院雖然名稱沒有「癌症」,但是它卻是癌症的專門醫院(像是台大醫院,無法從名字得知與癌症有密切關連)。這個名稱上的欺騙,就是一種誘導性的特徵,讓資料容易發生錯誤,這就叫做標籤洩漏(label leakage)。
這個標籤洩漏,就是把情報洩漏到特徵
中,讓特徵
受到它的特性而影響,文中範例是有醫院名稱
這個特性,其受名稱欺騙,進而影響模型的建置。
這樣的錯誤在現實中常發生,不得不注意。
睫毛之聲:
資料的input不得不注意,機器學習最重要的大概是資料整理吧!