Day 29：發大財了沒 ?

第 11 屆 iThome 鐵人賽

DAY 29

AI & Data

人工智慧 vs.工人智慧系列第 29 篇

11th鐵人賽

phelps

2019-09-30 09:40:49

1684 瀏覽

分享至

在前面四天我們依序提到了改善資料分類的方式，從最原始的資料處理到後來的分類演算法和資料降維，所有的目的當然是希望所有的結果可以驗證最原始提出概念：從 PTT 文章找出可能的股市走勢。

這原始的觀念出自於 2 年前看 PTT 股市版後突然靈機一想的點子，之前有寫把它做成一份 PPT 簡報放在 SlideShare 上。

https://www.slideshare.net/ChaoHsuanKe/ptt-stock-text-classification

去年的實驗資料尚未收集夠多，所以正確率大約就是六成左右，那當時也有思考了一下可以改善的方式，只是忙於白日上班的工作所以一直沒有再繼續做下去，又擱置了一年才又重新拿出來。經過這次一串的實驗後，發現其實正確率還是可以繼續被提升的，那就表示這結果似乎跟當初預期的目標是有可能接近的。

*不過一個系統無法有一個最完美的產出，不斷的從中改進才是一個開發者該有的精神。*

其實我自己心中還有列了一些可以改善的方式以及未來目標甚至是一些尚未被確認的假設問題，這都有待日後持續的修正。當然、希望有一天整個系統可以達到自動化的方式，最好每天乾脆都幫我操作股票好了，看看我會不會真的發大財 ?

改進
= 改寫程式碼與計算方式 =
未來改用 Python 重寫所有的程式碼，在編碼與分類方式導入 CNN 來實驗看看 [註 1]。這一次之所以沒直接使用 CNN 是因為我們的 training data (人工標記) 跟本太少，train 出來的 model 應該也好不到哪去，所以索性感脆先不用，這可以留待明天再來玩玩 ?

目標
= 釋放出標記的訓練資料集 =
這一次我們也花了一些時間做資料標記的動作，如果未來還有更多時間可以來做這件事情，我們有打算把所有標記好的資料公開出來，當作一個標準的資料集，讓有興趣研究的所有人都可以免費地使用。

但要標記一個完整又有用的資料集真的還蠻耗時間與人力，所以這也得等有時間再來做。

疑問
= 是否不用用數學來解釋？=
其實我們自己也一直有個疑問，一直在想是不是工程師都喜歡把簡單的問題複雜化？例如說明明選股的方式這麼多，為什麼要用那麼多演算法來處理？這世界真有這麼複雜嗎？(或是真有這麼簡單嗎？)

有時候看經濟日報辦的選股比賽，都覺得這些分析師有些選得還不錯啊，幹嘛不跟著他們就好？這個問題 .. 我們現在也無解啊 ?

https://money.udn.com/search/tagging/1001/強勢股

註 1：Convolutional Neural Networks for Sentence Classification
https://www.aclweb.org/anthology/D14-1181

免責聲明：本文章提到的股市指數與說明皆為他人撰寫文章內容，包括：選股條件，買入條件，賣出條件和風險控制參數，只適用於文章內的解釋與說明，此提示及建議內容僅供參考之用，並不構成投資研究、認購、招攬或邀約任何人士投資任何投資產品或交易策略，亦不應視為投資建議。