如果你真的有開始嘗試去標記一些文章,相信你一定有遇這些問題不知道該怎麼標記:
第一點的問題,什麼叫做很多混亂的訊息?除了前一篇提到有些文章是『新聞』、『買賣金額表』或是『盤後資訊』等類型的文章會夾雜許多非單一的資訊,那還有一些可以被稱為混亂訊息的是?我們這邊的定義是:有許多公司名稱或代號在同一篇文章內,或是寫了一堆內文、數字,屬於這些類型的文章我就把它歸為第一點的類型。
我們先來講第一種可能:太多公司名稱在文章內。
圖1. 太多公司名稱在內的文章
圖1 的這篇文章講到了三間公司:國巨、環球晶與穩懋。雖然這世界很多事情是環環相扣,A 公司(或是類股)的狀態會影響到 B 公司;但因爲我們標記的時候偏向考量個股的狀態,而且是使用之後的股票指數來評估好壞(下一篇文章會提到),所以在圖1 這一篇文章內基本上這資訊對於要看出單一個股是有難度的,因此我們不會標記這種文章。
第二點比較好理解:沒特別寫出對於個股看好或和壞。因為沒寫看好或看壞,在標記時也很難幫忙有個依據去參考,所以這種文章也會被忽略。
圖2. 沒有寫出好或壞的建議文章
第三點,文章沒有太多意義。很明顯的類型就是講廢文的文章,直接看這個範例應該可以明白:
圖3. 沒有意義的文章範例
然而像文章內雖然可能有寫出他看好或看壞某隻股票的狀況,但沒有寫出一些原因,這種文章有可能就只是被當作笑話看看而已(除非你是預言家,直接說出明天哪知股票會漲)。像這種文章也就不會被我們考量拿來標記為訓練用的資料集,畢竟連你自己都找不出文章的頭緒了,還敢用來訓練嗎?
有一些文章很明顯標題不符,例如內文跟標題完全對不上,圖4 的範例標題為『大盤空』但內文卻說產業機會提升。在語義上的定義這類型文章稱之為“反諷法”,這我們也不考慮列入標記。
圖4. 標題與內文不相關
另外還有些文章是寫出作者對於整體的趨勢,而不是針對單一個股的文章內容,這也不在我們的考量範圍內,也會一併忽略。例如圖5 的範例,該作者只針對整體經濟環境進行分析,但並非針對個別股票,因此這類型文章也不在我們的考量範圍內。
圖5. 非針對個股進行分析的文章
以上提到的類型文章在我自己的標記中都會標記成 “undefined” 類型,之後要處理為訓練集資料時就不再使用,以避免用了太多不良的資料。至於怎麼樣類型的文章被我們標記為 “positive” 與 “negative” 兩個類別,在下一篇的文章中會繼續說明。
免責聲明:本文章提到的股市指數與說明皆為他人撰寫文章內容,包括:選股條件,買入條件,賣出條件和風險控制參數,只適用於文章內的解釋與說明,此提示及建議內容僅供參考之用,並不構成投資研究、認購、招攬或邀約任何人士投資任何投資產品或交易策略,亦不應視為投資建議。