iT邦幫忙

2019 iT 邦幫忙鐵人賽

DAY 28
0

問題定義:視為一種文本分類的問題
作者提出的方法: 使用Naïve Bayes

https://ithelp.ithome.com.tw/upload/images/20181112/20112538s4mSv5sn98.jpg

資料來源:Kaggle challenge, 13,000筆2016年資料
Sci-kit Learn GridSearch執行效果最好,2-gram處理,support頻率:3次

語言分析可以判斷的特徵包含:文法結構、文字選擇、標點符號、複雜度

作者發文的時間也是會偵測常用的特徵

挑戰:以NLP統計詞的頻率,或是tfidf的處理,是無法理解到詞的前後關係的。
為了產生良好的模型,具備優良的訓練資料會是一個挑戰。因此往往需要自己建立fake news樣本。

除了其他想法:觀測情緒極端程度、短期發文較前前期發文量統計、帳號年齡、帳號發文時間、發文間格時間、圖片特徵、熱門程度(轉貼數)、作者朋友圈

參考來源
Fake News Detection using Machine Learning
https://www.pantechsolutions.net/machine-learning-projects/fake-news-detection-using-machine-learning
Fake news detector algorithm works better than a human
https://news.umich.edu/fake-news-detector-algorithm-works-better-than-a-human/


上一篇
How machine learning can help detect APT
下一篇
python for malware static analysis (1)
系列文
自然語言技術與AI/ML初探30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言