【Day29】4th：現實案例－隱喻和政治傾向

第 11 屆 iThome 鐵人賽

DAY 29

Google Developers Machine Learning

Machine Learning（by Google）系列第 29 篇

11th鐵人賽 machine learning machinelearning google

eyelash*睫毛

2019-10-14 23:47:56

1717 瀏覽

分享至

google和研究文學的教授一同研究，看能不能用隱喻的作品資料，去預測作者的政治傾向。在完成模型後，他們發現準確率超高，到底是為什麼呢？

文章：ML Systems in the Real World: Literature

論文：Meaning and Mining: the Impact of Implicit Assumptions in Data Mining for the Humanities

和研究18世紀英國文學的教授，一起進行文學隱喻與政治傾向的關係。他們把隱喻的句子相關資訊，和作者資料、他們的行為等等，製作一份資料集，進行機器學習。

這樣的機器學習效果十分顯著，準確率非常的高。
可是這樣的結果讓他們重新審思，是怎樣的因子讓這次的效果如此卓越，還是本身就是錯誤的？這樣的發想，他們發現一個有趣的現象。
他們以「Samuel L. Richardson」為範例，他的隱喻句子會被放到訓練集中，或是驗證集、測試集中，意思也就是說，模型在學習Samuel L. Richardson的政治傾向中，不僅只是在訓練階段學習，像是測試階段也會取得他的相關資料。因此在學習過程中，會在別的地方，非本身的訓練集中取得相關資料。這樣的效果讓模型的最後成果非常的好。
因此他們做了個比較：某個作者的資料僅放在某個資料集，像是全部放在「訓練階段」、「測試階段」等等。結果發現，效果非常的差，讓結果遠遜於預期。