iT邦幫忙

第 11 屆 iThome 鐵人賽

DAY 12
1
AI & Data

人工智慧 vs.工人智慧系列 第 12

Day 12:小天地裡的遊戲規則

如果大家都有成功照上一篇講的自己刻好了一個標記器的 UI 或是也利用範例檔成功執行起來,那我們就可以來講在這邊我們做好的標記器需要呈現哪些資料了。

https://ithelp.ithome.com.tw/upload/images/20190913/20119726TM4MDYfWLT.png
圖1.

圖1 是我們範例檔內的排版,其實看得出來真的只需要幾個元件組成就可以完成。這邊可以把它想成好幾個區塊,而每個區塊都有他個別的功用,主要是用來提示每篇文章的相關資訊以及一個可以讓使用者輸入所判斷出的文章好壞標記。

https://ithelp.ithome.com.tw/upload/images/20190913/201197262awbPibNR7.png
圖2.

我們在這圖2 可以看到有用紅色框框標記出來的幾個區域,以及一個藍色框框的區域。這邊依序來講解每個框框的內容(以下直接用英文字元來簡稱框框代號)。

A:讀檔 MenuBar:用於載入過去紀錄檔以及存檔使用
B:文章資訊:標記文章發表時間、作者名稱、檔名以及文章代號
C:公司名稱與代號:列出有哪些公司名稱與代號包含在文章內容中
D:股價指數
1. 列出有哪些數值在文章內 (可能的股價指數)
2. 列出判定該篇文章是在講述哪隻公司,並列出當日以及三過月後各自的收盤指數
E:推文數量:該篇文章被推文數量
F:已被標記 (可被使用) 的文章數量:經人工標記後可以用來當作訓練及資料的數量
G:文章標題:所發表的文章標題
H:文章內文:所發表的文章內文
I:已被標記以及剩餘文章數量:可以被標記的文章總數以及被標記完成的文章數量、剩餘數量

以上是紅色框框內的資訊,目的是用於輔助標記者參考該篇文章是否有一些有價值的參考性。例如從『文章標題』可以快速看出該篇文章是想講什麼方向 (e.g. 鴻海, 空;這樣可以知道內文可能是作者想要講鴻海之後會下跌)。『推文數量』是另一個參考用的指標,因為推文多的文章也許是比較多人想相信作者在內文所提出的意見。而『股價指數』應該是對判斷這篇文章好與壞最關鍵的地方,因為可以驗證該篇作者在發表文章時對於該個股未來走向預測的準確性。

藍色框框的部分就是讓標記者進行標記的區域,主要分為三個選項,而標記者只能選擇其中一個。選項分別是“positive” (正向), “negative” (負項) and “unfedined” (無法定義)。至於怎麼樣的文章該標記怎麼樣的類別,在之後的文章會提到這些規則,而我們這邊已經完成的範例中就是依據此規則來標記資料的類別屬性。

圖3 展現了一個載入文章後的標記器,標記氣會自動的把文章相關資訊放到元件上,這樣標記者只要在藍色框框的標記區域執行即可。

https://ithelp.ithome.com.tw/upload/images/20190913/20119726kzXdoVXpWW.png
圖3.


免責聲明:本文章提到的股市指數與說明皆為他人撰寫文章內容,包括:選股條件,買入條件,賣出條件和風險控制參數,只適用於文章內的解釋與說明,此提示及建議內容僅供參考之用,並不構成投資研究、認購、招攬或邀約任何人士投資任何投資產品或交易策略,亦不應視為投資建議。


上一篇
Day 11:打造自己的小天地
下一篇
Day 13:小天地裡的遊戲 (上集)
系列文
人工智慧 vs.工人智慧30

尚未有邦友留言

立即登入留言