技術問答
技術文章
iT 徵才
聊天室
2025 鐵人賽
登入/註冊
問答
文章
Tag
邦友
鐵人賽
搜尋
第 12 屆 iThome 鐵人賽
DAY
12
0
AI & Data
今晚,我想來點經典NLP論文。
系列 第
12
篇
[D12] Dynamic topic models (Blei and Lafferty, 2006) 2/2
12th鐵人賽
victor.huang
2020-09-26 20:21:46
907 瀏覽
分享至
Key Points
前略。
資料集:
用 1881年 到 1999年 的 Science 期刊。(!)
資料源在
這裡
。
每年抽出 250 篇文章出來,總共三萬篇。
前處理:
stemming。
移除出現次數少於 25 次的文字。
最終字典大小:15,955字。
實驗1:
設定 20 個主題的模型。
以上的兩張圖來自於兩個主題,每張圖分成三部分:
(上):120 年來該主題的變化。
(下左):文字的後驗機率(每張圖三個字,注意三個字的量級不一定一樣(作者也沒給單位))。
(下右):每年相關的文章。
實驗2:
測試是否能基於時間點 t 的模型預測時間點 t + 1 的文章。
這裡的預測是用 variational bound 來衡量,算出下一年文章的 negative log likelihood 總和。
三種模型:
DTM (本文)
用過去所有年份的資料 (t0 ~ t) 訓練出來的 LDA 。
用過去一年的資料 (t) 訓練出來的 LDA 。
結果:
可以看到 DTM 的數值最低表現最好。
Thoughts
不知道是不是因為 t 是 t-1 的函數,每年的文字變化還蠻細微的。
蠻多重複的字一再出現,如 theory,有點好奇在 science 這樣的文本中,theory 這個詞不會出現在各個 topic 裡嗎?
Matter 這個詞逐漸式微,和下面的 nerve 被 neuron 比下去一樣。研究的客體總是單位越來越小,越來越精確?
quantum 這個詞展現了什麼叫做文藝復興,應該也要拿 ML 相關的文章來做做看,看是否 Neural Network 也是這樣的趨勢。
留言
追蹤
檢舉
上一篇
[D11] Dynamic topic models (Blei and Lafferty, 2006) 1/2
下一篇
[D13] Weakly Supervised User Profile Extraction from Twitter (Li et al., 2014) 1/2
系列文
今晚,我想來點經典NLP論文。
共
17
篇
目錄
RSS系列文
訂閱系列文
1
人訂閱
13
[D13] Weakly Supervised User Profile Extraction from Twitter (Li et al., 2014) 1/2
14
[D14] Weakly Supervised User Profile Extraction from Twitter (Li et al., 2014)
15
[D15] Weakly Supervised User Profile Extraction from Twitter (2014) 2/2
16
[D16] Emotion Intensities in Tweets (2017) 1/2
17
[D17] Emotion Intensities in Tweets (2017) 2/2
完整目錄
熱門推薦
{{ item.subject }}
{{ item.channelVendor }}
|
{{ item.webinarstarted }}
|
{{ formatDate(item.duration) }}
直播中
立即報名
尚未有邦友留言
立即登入留言
iThome鐵人賽
參賽組數
902
組
團體組數
37
組
累計文章數
19856
篇
完賽人數
528
人
看影片追技術
看更多
{{ item.subject }}
{{ item.channelVendor }}
|
{{ formatDate(item.duration) }}
直播中
熱門tag
15th鐵人賽
16th鐵人賽
13th鐵人賽
14th鐵人賽
17th鐵人賽
12th鐵人賽
11th鐵人賽
鐵人賽
2019鐵人賽
javascript
2018鐵人賽
python
2017鐵人賽
windows
php
c#
linux
windows server
css
react
熱門問題
防火牆fortinet只開放line 問題
Gem如何找到該功能?!我是Gemini付費使用者
中華電信光纜當骨幹...SWminigbic無法正常使用
我在做 packet tracer 的題目,想請問一下該怎麼做
dhcp 在client 端機碼設定的問題
照片破圖或是有損壞,如何修復?
熱門回答
防火牆fortinet只開放line 問題
中華電信光纜當骨幹...SWminigbic無法正常使用
我在做 packet tracer 的題目,想請問一下該怎麼做
dhcp 在client 端機碼設定的問題
熱門文章
Agentic AI 開發實戰:我是如何設計 “Code + LLM” 混合架構,解決 AI品質不穩的問題?
[gem5] 該怎麼編譯以及運行 gem5 ?
讓人受益終身的 9 種數據分析思維
【C++學習筆記】01《從零學習C++,跟世界打招呼吧!》
數位轉型是什麼?從定義、三階段到成功案例一次看懂
IT邦幫忙
×
標記使用者
輸入對方的帳號或暱稱
Loading
找不到結果。
標記
{{ result.label }}
{{ result.account }}