標記工具的使用不要太複雜,越簡單當然越好,而且畫面一定要有 UI 介面。這裡我們直接使用 Swing 來開發,所以邊我們快速地來講解一下我們需要用到哪些元件。標...
如果大家都有成功照上一篇講的自己刻好了一個標記器的 UI 或是也利用範例檔成功執行起來,那我們就可以來講在這邊我們做好的標記器需要呈現哪些資料了。 圖1. 圖1...
前面講完了標記器介面的開發,接下來就是要說明我們要標記的文章特性,因為文章太多類型,也有很多“雜訊”,怎麼選出有價值的文章變得相對重要。 在前幾天的文章中我們有...
如果你真的有開始嘗試去標記一些文章,相信你一定有遇這些問題不知道該怎麼標記: 一篇文章內出現很多混亂訊息 沒特別寫出對於個股看好或和壞 文章內容沒有意義時...
這一篇我們來說明我們標記 “positive” 和 “negative” 的標準在哪裡。 前面有提到,評估文章的好壞會依據該文章提到的公司股價未來的指數當作一個...
在前面一直提到我們得到的 PTT 文章都是文字呈現,那怎麼讓電腦也看得懂呢?因為最終的計算是個兩類別的分類問題,所以這邊我們把所有的文章轉成數值,也就是每一篇文...
前面一直提到要把文字轉乘數值,在前一天也有講到了目前常見的轉換方式。那我們今天直接講一下如何把文字轉成數值。 fasttext 是 Facebook 所提供的...
在上一篇提到的字詞轉向量,通常的做法一定是一整篇文章直接進行斷詞斷字的動作,然而為了降低一些運算量或是說想剃除掉一些比較無意義的字詞,例如:語助詞或是介系詞等...
前一天提到了斷詞,這樣等於是把一篇文章分解開來。那現在有了個別的字詞之後,就可以把字詞轉換為電腦可以讀入的數值。 之前一篇有提到,可以利用 fasttext 進...
當我們已經將文字轉成數值,接下來就是要利用分類的計算方式來進行好壞文章的分類。 在說明我們使用的分類演算法前,先用一篇的章節來說明各分類器的優缺點,以便讓大家對...