昨天我們本來說第一個要談的是目標定義,但後來想了想,會來這邊看這篇文章的應該都還沒有想法,或有想法苦於沒有資料?(有嗎)
所以就乾脆先從資料即開始講起好了……
前面有說到目前的情緒分析有分成三種--文字、聲音、影像,今天就從文字類型的作為起始點,文字類型的大多會集中在留言、評論等等,這些匯市最好蒐集的文字資料。
這是nproellochs發布在GitHub的一個資料集,其中包含:
電影評論
IMDb 電影評論 (DictionaryIMDB.csv) 中具有正面或負面意義單字的CSV檔案。
財務申報
美國監管申報文件 (Dictionary8K.csv) 中具有正面或負面意義單字的CSV檔案。
Kaggle備用連結
這個資料集包含了twitter中的160萬條推文,並且在資料集中已經被標註好正面、負面。
雖然裡面的資料已經很舊了,但不失為一個練手好物。
中文翻譯過來是「多領域情感資料庫」,看上去很難懂,其實這個是包含亞馬遜中各種產品評論(所以較多領域)的資料集。
其中要注意的是,有些領域產品的評論非常多,有些則比較少,所譯在操作的時候要注意一下。
然後帶有星星的評論如果需要的話可以把星星轉為二進制的標籤以利分析。
這個資料集是部落格的資料及,裡面包含了將近一萬九千多個部落客的貼文,每一個部落格都是一個單獨的資料集。
裡面的資料也比較舊,主要是2004年以前的。裡面主題豐富,也有將時間考慮進去。
這個資料集我覺得蠻酷的,其中有約26萬旅遊(Tripdvisor)、4萬多則車型(Edmunds)的相關資料。
這邊先介紹一下,前者是旅遊訂房網站,後者則是線上購車網站。
Edmunds汽車評論包含2007~2009 年車型的評論
Tripdvisor則包含十個不同城市的飯店評論,每個城市大約有80-700家飯店。
今天的文章就介紹到這邊,大家可以去各個資料集逛逛,也可以試著上網找找自己喜歡的主題,說不定會有新奇的發現哦!