iT邦幫忙

第 11 屆 iThome 鐵人賽

DAY 13
1
AI & Data

人工智慧 vs.工人智慧系列 第 13

Day 13:小天地裡的遊戲 (上集)

  • 分享至 

  • xImage
  •  

前面講完了標記器介面的開發,接下來就是要說明我們要標記的文章特性,因為文章太多類型,也有很多“雜訊”,怎麼選出有價值的文章變得相對重要。

在前幾天的文章中我們有提到,在 PTT 股板文章內有分幾個類型:標的、新聞、心得、請益、投顧、其他公告。之所以要分這麼多類別當然是讓發表者可以先在標題選出適當的類別,讓其他觀看的可以可以快速的知道要不要看這一篇文章;也剛好這個關係讓我們可以依據這個標題類型直接過濾掉不要的文章。

這時候你一定會想問為什麼可以直接過濾到某些類型的文章而不要拿來使用?我只能說這是依據自己過去看 PTT 股版的經驗學來的。通常只有四種類型的文章會寫下個人對於某些股票的心得,依序分別是:

  1. 標的
  2. 心得
  3. 閒聊
  4. 其他

其中『標的』與『心得』更是最常見的心得文,而閒聊與其他則是偶而會出現心得文章,原因可能是有些人不知道該怎麼歸類或是覺得想謙虛一點不用『標的』這類型當標題文,反而是轉而使用『閒聊』或『其他』。

https://ithelp.ithome.com.tw/upload/images/20190914/20119726kdReREktvI.png
圖1. 標的類型文章

https://ithelp.ithome.com.tw/upload/images/20190914/20119726uMBQCXqrlW.png
圖2. 新聞類型文章

從上兩張圖的範例可以明顯地看得出來,『標的』文章與『新聞』文章的差距。新聞文章皆是客觀(理論上)報導,不會加入個人的思維進入文字中,因此我們無法從中找出某些特性 (你看過新聞直接報你名牌嗎?也許有,但最後都沒什麼好下場;而且被新聞報出來的都沒什麼好結果)。

因此在標記文章時,標題至少要先符合上面提到的四個類別才需要進行別記,否則皆是跳過。還有一些雖然符合上述標題類別的文章,但也不會建議進行標記:

  1. 跟個股沒直接股關係 (可能講整體的大盤或是美股走向)
  2. 整理數據的文章 (像是 “盤後閒聊”)

圖3 是一個標準的心得文,但無完全沒有指出“哪些”股票未來的方向,而是在講大盤的狀態。圖4 則是整理當日數據,很明顯也跟個股無關。所以這些文章並不在我們標記的考慮之內,看到這些文章的時候可以直接跳過 (因為資料的含金量不足)。

https://ithelp.ithome.com.tw/upload/images/20190914/20119726AaUXwyBe4b.png
圖3. 心得文,但與個股無關

https://ithelp.ithome.com.tw/upload/images/20190914/20119726BAidvuNSUR.png
圖4. 數據文章

以上是一些對於之後要拿來當訓練集資料比較沒有幫助的文章,當然情況不只這些,還有很多種奇奇怪怪的文章需要被濾掉。下一篇我們會再介紹其他種不需要標記的文章種類,這樣之後如果自己想要標記文章,也可以當作個參考。


免責聲明:本文章提到的股市指數與說明皆為他人撰寫文章內容,包括:選股條件,買入條件,賣出條件和風險控制參數,只適用於文章內的解釋與說明,此提示及建議內容僅供參考之用,並不構成投資研究、認購、招攬或邀約任何人士投資任何投資產品或交易策略,亦不應視為投資建議。


上一篇
Day 12:小天地裡的遊戲規則
下一篇
Day 14:小世界裡的遊戲 (下集)
系列文
人工智慧 vs.工人智慧30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言