iT邦幫忙

第 11 屆 iThome 鐵人賽

DAY 14
2
AI & Data

人工智慧 vs.工人智慧系列 第 14

Day 14:小世界裡的遊戲 (下集)

  • 分享至 

  • xImage
  •  

如果你真的有開始嘗試去標記一些文章,相信你一定有遇這些問題不知道該怎麼標記:

  1. 一篇文章內出現很多混亂訊息
  2. 沒特別寫出對於個股看好或和壞
  3. 文章內容沒有意義時

第一點的問題,什麼叫做很多混亂的訊息?除了前一篇提到有些文章是『新聞』、『買賣金額表』或是『盤後資訊』等類型的文章會夾雜許多非單一的資訊,那還有一些可以被稱為混亂訊息的是?我們這邊的定義是:有許多公司名稱或代號在同一篇文章內,或是寫了一堆內文、數字,屬於這些類型的文章我就把它歸為第一點的類型。

我們先來講第一種可能:太多公司名稱在文章內。

https://ithelp.ithome.com.tw/upload/images/20190915/201197266FsbHsppow.png
圖1. 太多公司名稱在內的文章

圖1 的這篇文章講到了三間公司:國巨、環球晶與穩懋。雖然這世界很多事情是環環相扣,A 公司(或是類股)的狀態會影響到 B 公司;但因爲我們標記的時候偏向考量個股的狀態,而且是使用之後的股票指數來評估好壞(下一篇文章會提到),所以在圖1 這一篇文章內基本上這資訊對於要看出單一個股是有難度的,因此我們不會標記這種文章。

第二點比較好理解:沒特別寫出對於個股看好或和壞。因為沒寫看好或看壞,在標記時也很難幫忙有個依據去參考,所以這種文章也會被忽略。

https://ithelp.ithome.com.tw/upload/images/20190915/20119726cWyl0m9Vfe.png
圖2. 沒有寫出好或壞的建議文章

第三點,文章沒有太多意義。很明顯的類型就是講廢文的文章,直接看這個範例應該可以明白:
https://ithelp.ithome.com.tw/upload/images/20190915/20119726cuQeSHgtXH.png
圖3. 沒有意義的文章範例

然而像文章內雖然可能有寫出他看好或看壞某隻股票的狀況,但沒有寫出一些原因,這種文章有可能就只是被當作笑話看看而已(除非你是預言家,直接說出明天哪知股票會漲)。像這種文章也就不會被我們考量拿來標記為訓練用的資料集,畢竟連你自己都找不出文章的頭緒了,還敢用來訓練嗎?

有一些文章很明顯標題不符,例如內文跟標題完全對不上,圖4 的範例標題為『大盤空』但內文卻說產業機會提升。在語義上的定義這類型文章稱之為“反諷法”,這我們也不考慮列入標記。

https://ithelp.ithome.com.tw/upload/images/20190915/20119726uBJa4oyAQB.png
圖4. 標題與內文不相關

另外還有些文章是寫出作者對於整體的趨勢,而不是針對單一個股的文章內容,這也不在我們的考量範圍內,也會一併忽略。例如圖5 的範例,該作者只針對整體經濟環境進行分析,但並非針對個別股票,因此這類型文章也不在我們的考量範圍內。

https://ithelp.ithome.com.tw/upload/images/20190915/20119726XpcHIPXp1R.png
圖5. 非針對個股進行分析的文章

以上提到的類型文章在我自己的標記中都會標記成 “undefined” 類型,之後要處理為訓練集資料時就不再使用,以避免用了太多不良的資料。至於怎麼樣類型的文章被我們標記為 “positive” 與 “negative” 兩個類別,在下一篇的文章中會繼續說明。


免責聲明:本文章提到的股市指數與說明皆為他人撰寫文章內容,包括:選股條件,買入條件,賣出條件和風險控制參數,只適用於文章內的解釋與說明,此提示及建議內容僅供參考之用,並不構成投資研究、認購、招攬或邀約任何人士投資任何投資產品或交易策略,亦不應視為投資建議。


上一篇
Day 13:小天地裡的遊戲 (上集)
下一篇
Day 15:小世界裡的好人與壞人
系列文
人工智慧 vs.工人智慧30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言