google和研究文學的教授一同研究,看能不能用隱喻的作品資料,去預測作者的政治傾向。在完成模型後,他們發現準確率超高,到底是為什麼呢?
文章:ML Systems in the Real World: Literature
論文:Meaning and Mining: the Impact of Implicit Assumptions in Data Mining for the Humanities
和研究18世紀英國文學的教授,一起進行文學隱喻與政治傾向的關係。他們把隱喻的句子相關資訊,和作者資料、他們的行為等等,製作一份資料集,進行機器學習。
這樣的機器學習效果十分顯著,準確率非常的高。
可是這樣的結果讓他們重新審思,是怎樣的因子讓這次的效果如此卓越,還是本身就是錯誤的?這樣的發想,他們發現一個有趣的現象。
他們以「Samuel L. Richardson」為範例,他的隱喻句子會被放到訓練集中,或是驗證集、測試集中,意思也就是說,模型在學習Samuel L. Richardson的政治傾向中,不僅只是在訓練階段學習,像是測試階段也會取得他的相關資料。因此在學習過程中,會在別的地方,非本身的訓練集中取得相關資料。這樣的效果讓模型的最後成果非常的好。
因此他們做了個比較:某個作者的資料僅放在某個資料集,像是全部放在「訓練階段」、「測試階段」等等。結果發現,效果非常的差,讓結果遠遜於預期。
所以得到一個結論,最好處理資料集的方法是隨機處理,沒有人為操作介入。因為人為操作,可能導致資料集獲得太多資訊,導致有的資料全部預測錯誤,或是有人全部預測正確。
因此我們一定要:
睫毛之聲:
原來準確率太高可以發現,一些資料在放進去的時候就已經被塞選過,所以在相關的預測就會有卓越的效果。要避免介入,但要讓資料可以達到隨機目的,又不能提供太小的資料集,這樣頗有難度的!
(一開始寫的語句亂七八糟,已重新整理)