技術問答
技術文章
iT 徵才
Tag
聊天室
2023 鐵人賽
登入/註冊
問答
文章
Tag
邦友
鐵人賽
搜尋
第 12 屆 iThome 鐵人賽
DAY
12
0
AI & Data
今晚,我想來點經典NLP論文。
系列 第
12
篇
[D12] Dynamic topic models (Blei and Lafferty, 2006) 2/2
12th鐵人賽
victor.huang
2020-09-26 20:21:46
683 瀏覽
Key Points
前略。
資料集:
用 1881年 到 1999年 的 Science 期刊。(!)
資料源在
這裡
。
每年抽出 250 篇文章出來,總共三萬篇。
前處理:
stemming。
移除出現次數少於 25 次的文字。
最終字典大小:15,955字。
實驗1:
設定 20 個主題的模型。
以上的兩張圖來自於兩個主題,每張圖分成三部分:
(上):120 年來該主題的變化。
(下左):文字的後驗機率(每張圖三個字,注意三個字的量級不一定一樣(作者也沒給單位))。
(下右):每年相關的文章。
實驗2:
測試是否能基於時間點 t 的模型預測時間點 t + 1 的文章。
這裡的預測是用 variational bound 來衡量,算出下一年文章的 negative log likelihood 總和。
三種模型:
DTM (本文)
用過去所有年份的資料 (t0 ~ t) 訓練出來的 LDA 。
用過去一年的資料 (t) 訓練出來的 LDA 。
結果:
可以看到 DTM 的數值最低表現最好。
Thoughts
不知道是不是因為 t 是 t-1 的函數,每年的文字變化還蠻細微的。
蠻多重複的字一再出現,如 theory,有點好奇在 science 這樣的文本中,theory 這個詞不會出現在各個 topic 裡嗎?
Matter 這個詞逐漸式微,和下面的 nerve 被 neuron 比下去一樣。研究的客體總是單位越來越小,越來越精確?
quantum 這個詞展現了什麼叫做文藝復興,應該也要拿 ML 相關的文章來做做看,看是否 Neural Network 也是這樣的趨勢。
留言
追蹤
檢舉
上一篇
[D11] Dynamic topic models (Blei and Lafferty, 2006) 1/2
下一篇
[D13] Weakly Supervised User Profile Extraction from Twitter (Li et al., 2014) 1/2
系列文
今晚,我想來點經典NLP論文。
共
17
篇
目錄
RSS系列文
訂閱系列文
1
人訂閱
13
[D13] Weakly Supervised User Profile Extraction from Twitter (Li et al., 2014) 1/2
14
[D14] Weakly Supervised User Profile Extraction from Twitter (Li et al., 2014)
15
[D15] Weakly Supervised User Profile Extraction from Twitter (2014) 2/2
16
[D16] Emotion Intensities in Tweets (2017) 1/2
17
[D17] Emotion Intensities in Tweets (2017) 2/2
完整目錄
直播研討會
{{ item.subject }}
{{ item.channelVendor }}
{{ item.webinarstarted }}
|
{{ formatDate(item.duration) }}
直播中
立即報名
尚未有邦友留言
立即登入留言
iThome鐵人賽
參賽組數
1123
組
團體組數
52
組
累計文章數
23096
篇
完賽人數
656
人
看影片追技術
看更多
{{ item.subject }}
{{ item.channelVendor }}
|
{{ formatDate(item.duration) }}
直播中
熱門tag
看更多
15th鐵人賽
13th鐵人賽
14th鐵人賽
12th鐵人賽
11th鐵人賽
鐵人賽
2019鐵人賽
2018鐵人賽
javascript
2017鐵人賽
python
windows
php
c#
windows server
linux
css
程式設計
react
vue.js
熱門問題
感覺AI要導致廢物如我失業了
公司有人常常亂改IP位置(想問有甚麼辦法可以將IP鎖住不給更改)
Chrome 無法連上非Google網站
請問如何在老Tiptop系統,要新建一家公司要怎麼做?
DDR3記憶體 只抓到一半
發現生產厲害的傳統產業,資訊化越厲害,生產能力反而降低?
和朋友討論不出來 ,關鍵字搜尋方法,我也想學EXCEL了
免安裝版軟體開啟權限問體
請問我晚上開發一款工具,早上給公司使用,沒特別條款,法律知識產權還是我的嗎?
Nessus 弱掃問題
熱門回答
公司有人常常亂改IP位置(想問有甚麼辦法可以將IP鎖住不給更改)
Chrome 無法連上非Google網站
感覺AI要導致廢物如我失業了
DDR3記憶體 只抓到一半
Alma Linux與Rocky Linux,選擇哪一個比較好?
熱門文章
【資安日報】4月17日,多個廠牌的VPN系統、網路設備遭到鎖定,攻擊者對其發動暴力破解攻擊 Vigor Router Firewall 路由器 防火牆 解法
適合程式開發人員去練功夫
不同網段怎麼互連
在任何雲端上運行:雲端的可移植性你有考慮過嗎?
為了客戶搞LAB,變成在trouble shooting Virtualbox....
IT邦幫忙
×
標記使用者
輸入對方的帳號或暱稱
Loading
找不到結果。
標記
{{ result.label }}
{{ result.account }}