技術問答
技術文章
iT 徵才
Tag
聊天室
2025 鐵人賽
登入/註冊
問答
文章
Tag
邦友
鐵人賽
搜尋
第 12 屆 iThome 鐵人賽
DAY
12
0
AI & Data
今晚,我想來點經典NLP論文。
系列 第
12
篇
[D12] Dynamic topic models (Blei and Lafferty, 2006) 2/2
12th鐵人賽
victor.huang
2020-09-26 20:21:46
885 瀏覽
分享至
Key Points
前略。
資料集:
用 1881年 到 1999年 的 Science 期刊。(!)
資料源在
這裡
。
每年抽出 250 篇文章出來,總共三萬篇。
前處理:
stemming。
移除出現次數少於 25 次的文字。
最終字典大小:15,955字。
實驗1:
設定 20 個主題的模型。
以上的兩張圖來自於兩個主題,每張圖分成三部分:
(上):120 年來該主題的變化。
(下左):文字的後驗機率(每張圖三個字,注意三個字的量級不一定一樣(作者也沒給單位))。
(下右):每年相關的文章。
實驗2:
測試是否能基於時間點 t 的模型預測時間點 t + 1 的文章。
這裡的預測是用 variational bound 來衡量,算出下一年文章的 negative log likelihood 總和。
三種模型:
DTM (本文)
用過去所有年份的資料 (t0 ~ t) 訓練出來的 LDA 。
用過去一年的資料 (t) 訓練出來的 LDA 。
結果:
可以看到 DTM 的數值最低表現最好。
Thoughts
不知道是不是因為 t 是 t-1 的函數,每年的文字變化還蠻細微的。
蠻多重複的字一再出現,如 theory,有點好奇在 science 這樣的文本中,theory 這個詞不會出現在各個 topic 裡嗎?
Matter 這個詞逐漸式微,和下面的 nerve 被 neuron 比下去一樣。研究的客體總是單位越來越小,越來越精確?
quantum 這個詞展現了什麼叫做文藝復興,應該也要拿 ML 相關的文章來做做看,看是否 Neural Network 也是這樣的趨勢。
留言
追蹤
檢舉
上一篇
[D11] Dynamic topic models (Blei and Lafferty, 2006) 1/2
下一篇
[D13] Weakly Supervised User Profile Extraction from Twitter (Li et al., 2014) 1/2
系列文
今晚,我想來點經典NLP論文。
共
17
篇
目錄
RSS系列文
訂閱系列文
1
人訂閱
13
[D13] Weakly Supervised User Profile Extraction from Twitter (Li et al., 2014) 1/2
14
[D14] Weakly Supervised User Profile Extraction from Twitter (Li et al., 2014)
15
[D15] Weakly Supervised User Profile Extraction from Twitter (2014) 2/2
16
[D16] Emotion Intensities in Tweets (2017) 1/2
17
[D17] Emotion Intensities in Tweets (2017) 2/2
完整目錄
熱門推薦
{{ item.subject }}
{{ item.channelVendor }}
|
{{ item.webinarstarted }}
|
{{ formatDate(item.duration) }}
直播中
立即報名
尚未有邦友留言
立即登入留言
iThome鐵人賽
參賽組數
902
組
團體組數
37
組
累計文章數
19768
篇
完賽人數
529
人
看影片追技術
看更多
{{ item.subject }}
{{ item.channelVendor }}
|
{{ formatDate(item.duration) }}
直播中
熱門tag
看更多
15th鐵人賽
16th鐵人賽
13th鐵人賽
14th鐵人賽
17th鐵人賽
12th鐵人賽
11th鐵人賽
鐵人賽
2019鐵人賽
javascript
2018鐵人賽
python
2017鐵人賽
windows
php
c#
linux
windows server
css
react
熱門問題
桌機三更半夜自動開機不知在幹啥?是在下載還是在上傳資料?嚇死寶寶.去查設定我沒有設定在三更半夜更新或是掃毒呀!去查紀錄亦沒有當日凌晨的瀏覽紀錄,這到底是怎麼一回事,要如何查詢?是被安裝了病毒軟體?
碩士學歷能幫助我突破職涯天花板嗎?
群輝NAS套件Docker部署Outline
維護合約的合理性
如何讓Windows 11 Professional 開啟Synology DS925+網路芳鄰的速度加快?
librenms 25.4.0 重開機都要重新設定
Librenms ssl憑證檢查 通知方式
熱門回答
碩士學歷能幫助我突破職涯天花板嗎?
維護合約的合理性
群輝NAS套件Docker部署Outline
桌機三更半夜自動開機不知在幹啥?是在下載還是在上傳資料?嚇死寶寶.去查設定我沒有設定在三更半夜更新或是掃毒呀!去查紀錄亦沒有當日凌晨的瀏覽紀錄,這到底是怎麼一回事,要如何查詢?是被安裝了病毒軟體?
librenms 25.4.0 重開機都要重新設定
熱門文章
資安入門與實務應用介紹 28:APT(高階持續性威脅)攻擊解析與防範方法
資安入門與實務應用介紹 29:智能合約漏洞與加密貨幣詐騙案例分析
D30|AI 時代的資訊判讀力:防詐、反假、識謊的新資安素養
Day 7:防火牆配置與流量過濾(Firewall Configuration and Traffic Filtering)
C++開啟資料夾及檔案的方法
IT邦幫忙
×
標記使用者
輸入對方的帳號或暱稱
Loading
找不到結果。
標記
{{ result.label }}
{{ result.account }}