技術問答
技術文章
iT 徵才
Tag
聊天室
2023 鐵人賽
登入/註冊
問答
文章
Tag
邦友
鐵人賽
搜尋
第 12 屆 iThome 鐵人賽
DAY
13
0
AI & Data
今晚,我想來點經典NLP論文。
系列 第
13
篇
[D13] Weakly Supervised User Profile Extraction from Twitter (Li et al., 2014) 1/2
12th鐵人賽
victor.huang
2020-09-27 20:35:03
536 瀏覽
Paper Link
ACL 2014
https://www.aclweb.org/anthology/P14-1016.pdf
Key Points
本文旨在預測網路使用者個人資訊(profile)。
主要貢獻:
把預測任務轉換成資訊抽取任務。
提出一個大規模的資料集。
呈現資訊抽取任務的形式帶來的好處。
呈現此篇文章提出的模型的效果。
過去文獻:
Distant Supervision
利用現有的資料庫裡面的人物與其關係,蒐集訓練文本中可能描述這個關係的文字。
Homophily
利用社群網路上鄰居的資訊來獲得目標使用者的個人資訊。
同質性高的人們在社群網路上總是相連的。
Mislove et al. 曾從 Facebook 上爬下 4000 個 Rice U. 的學生並純粹基於網絡資訊來預測該學生的主修和預科。
但其並未使用作者的文字資訊。
資料庫收集
教育與工作
從 Google+ API 裡面蒐集帶有以下三個資訊的使用者。
工作
教育
Twitter 帳號
再從這些種子使用者裡面,找到同時在 Twitter 上與在 Google Circle 上都存在的好友/追蹤者。
這些好友也要帶有工作和教育資訊。
蒐集該使用者的所有帶有工作和教育相關的貼文,作為正資料集,其餘作為負資料集。
用 Freebase API 來對應別名,如 Harvard U. -> Harvard University。
婚姻
只有臉書有婚姻資訊,但公開的使用者不多。
退而求其次用 FreeBase 裡面的人物與關係。
這裡的人物幾乎都是名人,如歐巴馬。
貼文的收集方法一樣。
但不知道這些名人描述婚姻的方式是否與一般人相同?
與工作和教育不同,婚姻不具 Homophily。
但具 Reflexivity。
所以若 a 與 b 為婚姻關係。
那我們 a 提及 b 的貼文和 b 提及 a 的貼文都會收集。
資料集收集結果如下
[未完待續]
留言
追蹤
檢舉
上一篇
[D12] Dynamic topic models (Blei and Lafferty, 2006) 2/2
下一篇
[D14] Weakly Supervised User Profile Extraction from Twitter (Li et al., 2014)
系列文
今晚,我想來點經典NLP論文。
共
17
篇
目錄
RSS系列文
訂閱系列文
1
人訂閱
13
[D13] Weakly Supervised User Profile Extraction from Twitter (Li et al., 2014) 1/2
14
[D14] Weakly Supervised User Profile Extraction from Twitter (Li et al., 2014)
15
[D15] Weakly Supervised User Profile Extraction from Twitter (2014) 2/2
16
[D16] Emotion Intensities in Tweets (2017) 1/2
17
[D17] Emotion Intensities in Tweets (2017) 2/2
完整目錄
直播研討會
{{ item.subject }}
{{ item.channelVendor }}
{{ item.webinarstarted }}
|
{{ formatDate(item.duration) }}
直播中
立即報名
尚未有邦友留言
立即登入留言
iThome鐵人賽
參賽組數
1123
組
團體組數
52
組
累計文章數
23096
篇
完賽人數
656
人
看影片追技術
看更多
{{ item.subject }}
{{ item.channelVendor }}
|
{{ formatDate(item.duration) }}
直播中
熱門tag
看更多
15th鐵人賽
13th鐵人賽
14th鐵人賽
12th鐵人賽
11th鐵人賽
鐵人賽
2019鐵人賽
2018鐵人賽
javascript
2017鐵人賽
python
windows
php
c#
windows server
linux
css
程式設計
react
vue.js
熱門問題
感覺AI要導致廢物如我失業了
公司有人常常亂改IP位置(想問有甚麼辦法可以將IP鎖住不給更改)
Chrome 無法連上非Google網站
請問如何在老Tiptop系統,要新建一家公司要怎麼做?
DDR3記憶體 只抓到一半
發現生產厲害的傳統產業,資訊化越厲害,生產能力反而降低?
和朋友討論不出來 ,關鍵字搜尋方法,我也想學EXCEL了
免安裝版軟體開啟權限問體
請問我晚上開發一款工具,早上給公司使用,沒特別條款,法律知識產權還是我的嗎?
Nessus 弱掃問題
熱門回答
公司有人常常亂改IP位置(想問有甚麼辦法可以將IP鎖住不給更改)
Chrome 無法連上非Google網站
感覺AI要導致廢物如我失業了
Alma Linux與Rocky Linux,選擇哪一個比較好?
DDR3記憶體 只抓到一半
熱門文章
【資安日報】4月17日,多個廠牌的VPN系統、網路設備遭到鎖定,攻擊者對其發動暴力破解攻擊 Vigor Router Firewall 路由器 防火牆 解法
適合程式開發人員去練功夫
不同網段怎麼互連
在任何雲端上運行:雲端的可移植性你有考慮過嗎?
為了客戶搞LAB,變成在trouble shooting Virtualbox....
IT邦幫忙
×
標記使用者
輸入對方的帳號或暱稱
Loading
找不到結果。
標記
{{ result.label }}
{{ result.account }}