iT邦幫忙

第 12 屆 iThome 鐵人賽

DAY 10
0
AI & Data

今晚,我想來點經典NLP論文。系列 第 10

[D10] GSDMM (Yin and Wang, 2014) 2/2

Key Points

  • 實驗資料集:
    • Google News
      • Google news 有自己做分群。
        • 爬了 2013/ 11/ 27 這天的新聞
        • 11,109 篇,總共 152 群
        • 但 Google News 的分群真的是符合人類直覺的分群嗎?
          • 作者說人工檢查後發現品質很不錯。
        • 分成三個子資料集,用來測試不同的文章長度下的表下如何。
          • 只有標題 TitleSet (TSet)
          • 只有摘要 SnippetSet (SSet)
          • 標題摘要均有 TitleSnippetSet (TSSet)
    • Tweets
      • 用 Text REtrieval Conference (TREC) 的資料
      • TREC 是由 query 與 High relevance result 構成的
      • 由此把每個 query 當作一個群的概念,對應的 high relevance result 則作為群。
      • 總共 2472 篇文章,分成 89 個群。
    • 前處理
      • 轉小寫
      • 去掉非英文字和虛詞
      • 用 NLTK 做 stemming
      • 排除掉長度小於 2 或者大於 15 的字
  • 評估指標
    • https://ithelp.ithome.com.tw/upload/images/20200924/20128558u6hnaty2cC.png
    • 還有 Adjusted Rand Index (ARI) 和 Normalized Mutual Informa- tion (NMI)
  • 實驗結果
    • TweetSet
      • https://ithelp.ithome.com.tw/upload/images/20200924/20128558ljLJlYaofQ.png
      • Kmeans: K 設定為真實的群數
      • GSDMM: 回合數 30、 α = 0.1、 β = 0.1
      • GSDMM 全方位的優於舊有方法。
        • GSDMM 優於 kMeans 因為可以自由的選擇群數
        • GSDMM 優於 DMAFP 因為他不是用 EM 算法,不會落入區域最佳解。
    • Google News
      • https://ithelp.ithome.com.tw/upload/images/20200924/20128558SHm4f0ZaHM.png
      • 全方位的優於現有方法。
      • GSDMM 在長文本表現更佳
      • 但在短文本也勝過 KMeans 用長文本。
        • 足見其短文分群的實力。
  • 模型分析
    • 回合數的影響

      • 對於群數:收斂極快,十個回合左右就穩定。
      • https://ithelp.ithome.com.tw/upload/images/20200924/20128558xfIWR8oe0C.png
      • 對於效能:以 NMI為例,兩個回合就穩定。
      • https://ithelp.ithome.com.tw/upload/images/20200924/20128558o9zW8F1gNV.png
    • 初始群數 K 的影響

      • 每個實驗就跑十回合。
      • GSDMM 有能力找到接近真實分群的群數。
        • TitleSet 找不到可能是內含的文字太少了。
      • https://ithelp.ithome.com.tw/upload/images/20200924/20128558wumrGRdKci.png
      • GSDMM 在群數過大的時候,仍能正確的分群,維持了良好的 completeness 和 homogeneity。
        • 故可以放心的設定較大的 K 。
        • 這要歸功於兩個原則的平衡。
      • https://ithelp.ithome.com.tw/upload/images/20200924/20128558I2joCavqDC.png
    • alpha 的影響

      • 固定 beta = 0.1 ,初始 K = 300 , 跑十個回合。
      • https://ithelp.ithome.com.tw/upload/images/20200924/20128558YGYg2bYph7.png
      • 概念:當 alpha 為零的時候,每篇文章絕對不會去選擇空的群。
      • 可以看到在 tweetset 和 titleset 上面的表現,在 alpha 變大的時候,越來越多群出現,這是因為隨著 alpha 上升,選擇空群的機率上升。
      • 但 snippestset 和 titlesnippetset 就沒有這個情形,基本上很穩定,因為他們的文章長度較長,在這種情況下,根據公式,另外一條規則會主導。
      • https://ithelp.ithome.com.tw/upload/images/20200924/201285580n4HiEsP83.png
      • Alpha 對效能的影響甚微。
        • 照理說移除 alpha 有助於提升速度。
        • 但是在公式中,alpha 為零不能成立,畢竟 alpha 是 Dirichlet distribution 的參數。
        • 應該有另一個公式,留作未來探索。
    • beta 的影響

      • https://ithelp.ithome.com.tw/upload/images/20200924/20128558TjaVAqoZoa.png
      • 概念:當 beta 比較小的時候,文章較有可能被分到較相似的群。
      • 所以我們可以看到當 beta 越小,分出來的群就越多。
      • https://ithelp.ithome.com.tw/upload/images/20200924/20128558xJTSh75yd9.png
      • 我們可以看到上面,兩個指標隨著 beta 的變化。
        • 當文章越去找與自己相近的群的的時候,homogeneity就會比較高,但因為群太多導致 completeness 下降。
    • 可擴展性

      • 作者把資料集複製好幾次,看看不同的資料集各演算法所需的時間差異為何。
      • https://ithelp.ithome.com.tw/upload/images/20200924/20128558SFLzSQSUi9.png
      • 可以看到在資料集複製成 256 倍的大小時,約284萬篇文章的時候,GSDMM 的算法大概只要花半個小時,其他的算法都已經遠遠超過了。
      • 由此可證明此方法是可擴展的。

Thoughts

  • 好一篇分析完整的文章。
  • 能夠自動找到群數還蠻吸引人的。
  • 參數不複雜,容易理解,調參數應該不會太痛苦。

上一篇
[D9] GSDMM (Yin and Wang, 2014) 1/2
下一篇
[D11] Dynamic topic models (Blei and Lafferty, 2006) 1/2
系列文
今晚,我想來點經典NLP論文。17
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言