iT邦幫忙

第 11 屆 iT 邦幫忙鐵人賽

DAY 29
0

google和研究文學的教授一同研究,看能不能用隱喻的作品資料,去預測作者的政治傾向。在完成模型後,他們發現準確率超高,到底是為什麼呢?

文章:ML Systems in the Real World: Literature

論文:Meaning and Mining: the Impact of Implicit Assumptions in Data Mining for the Humanities


和研究18世紀英國文學的教授,一起進行文學隱喻與政治傾向的關係。他們把隱喻的句子相關資訊,和作者資料、他們的行為等等,製作一份資料集,進行機器學習。

這樣的機器學習效果十分顯著,準確率非常的高。/images/emoticon/emoticon07.gif
可是這樣的結果讓他們重新審思,是怎樣的因子讓這次的效果如此卓越,還是本身就是錯誤的?這樣的發想,他們發現一個有趣的現象
他們以「Samuel L. Richardson」為範例,他的隱喻句子會被放到訓練集中,或是驗證集、測試集中,意思也就是說,模型在學習Samuel L. Richardson的政治傾向中,不僅只是在訓練階段學習,像是測試階段也會取得他的相關資料。因此在學習過程中,會在別的地方,非本身的訓練集中取得相關資料。這樣的效果讓模型的最後成果非常的好。
因此他們做了個比較:某個作者的資料僅放在某個資料集,像是全部放在「訓練階段」、「測試階段」等等。結果發現,效果非常的差,讓結果遠遜於預期。

所以得到一個結論,最好處理資料集的方法是隨機處理,沒有人為操作介入。因為人為操作,可能導致資料集獲得太多資訊,導致有的資料全部預測錯誤,或是有人全部預測正確。
因此我們一定要:

  • 了解自己的數據內容
  • 取得適當的分類方式
  • 隨機分布所需的資料集:e.g.訓練、測試等等

睫毛之聲:

原來準確率太高可以發現,一些資料在放進去的時候就已經被塞選過,所以在相關的預測就會有卓越的效果。要避免介入,但要讓資料可以達到隨機目的,又不能提供太小的資料集,這樣頗有難度的!

(一開始寫的語句亂七八糟,已重新整理)


上一篇
【Day28】4th:機器學習+現實世界-癌症預測
下一篇
【Day30】4th:現實案例&機器學習總結(含雜記)
系列文
Machine Learning(by Google)30

尚未有邦友留言

立即登入留言