前面三篇都在講概念跟初步驗證,到了這裡終於要進入開發的部分。今天會把之後開發上使用到的程式語言與平台等相關資訊做一次說明,並依序寫上總共需要開發哪些 functions,就讓我們開始吧。
在第一篇所提到的:“利用PTT文章來找出股票風向”,以演算法的角度來說,就是一個分類問題,把文章分類成 positive 或 negative 兩個類別。為了達到這個目的,我們規劃了總共六個主要的項目來進行開發,依序如下所列,而每個開發項目的細節會在之後的文章內把細節做個說明,希望讓大家只要一步一步跟著執行,就可以完成開發。
第一步當然是要下載文章(不然是要用猜的嗎 XD),下載完成之後,我們也需要一些跟股市相關的資訊,例如個股的資訊(如: 公司代碼與代號)以及每日的收盤價。當有了資料,我們需要一些訓練集,但由於這個主題沒有現有的資料集,所以很多事情我們也必須自己來。再來我們需要把 PTT 文章轉成電腦看得懂的資訊,也就是文字轉數值。有了資料集,我們需要再建構一個分類器,之後再來做評估。好了,全部要開發的東西大概就是這些了,看起來好像有點多,不過沒關係,其實 code 我們都幫大家寫好了 ?,如果你懶惰,那就可以直接從 git 下載回去,如果你想改進一些東西,所有的 code 都是 open 的, 請再自行取用囉。
整個開發的部分我都是用 MacBook Pro 開發, 開發的程式語言使用的是 Java SE 1.8版,IDE 則是使用 Eclipse Oxgen ; 比較特別的是在網路資料擷取的部份因為直接使用其他的人的 code,所以需要另外安裝 Python來執行。而比較會消耗計算效能的只有在分類計算上,但其實整體來說已經算蠻輕量了,所以不用擔心會有跑不起來的問題。所有的 code 都放在我的 github 上,裡面也有README可以參考。那就讓大家先把環境準備好,之後的文章就開始進入我們開發的階段吧。
免責聲明:本文章提到的股市指數與說明皆為他人撰寫文章內容,包括:選股條件,買入條件,賣出條件和風險控制參數,只適用於文章內的解釋與說明,此提示及建議內容僅供參考之用,並不構成投資研究、認購、招攬或邀約任何人士投資任何投資產品或交易策略,亦不應視為投資建議。