Day 06：資料處理

第 11 屆 iThome 鐵人賽

DAY 6

AI & Data

人工智慧 vs.工人智慧系列第 6 篇

11th鐵人賽資料處理股市 json

phelps

2019-09-07 06:35:20

2107 瀏覽

分享至

從這裡開始，開始需要執行程式。在之後的範例裡面，我們會把所有的 functions 都先放在 TaggingMain_Sample.java 裡。

文章列表
為了之後讀取檔案更方便，我們先把所有下載回來的JSON檔裡面的article_id 先存成一個list，產生一個 articlelist.txt。

File folder = new File('來源資料夾名稱');
File[] listOfFiles = folder.listFiles();

在articlelist.txt中，Ａ部分是檔案名稱，Ｂ部分是PTT 文章ID，Ｃ部分是作者ID。這三個部分會是之後讀入其他檔案的依據，你也可把當他做是要讀取文章的 Index。

在ReadAllArticlesList()方法中，讀取存放來源JSON檔的資料夾以及裡面的 content。裡面有幾個檢查的 methods，例如檢查 JSON格式以及檔案格式是否合法？分別是 isJSONValid()、ExtensionCheck()以及getFileExtension()。

讀取內文
先來針對要已經下載回來的JSON檔進行處理。在示範檔 TaggingMain_Sample.java 的ReadAllArticles()已經先抓取全部的檔案存成 Vector (filenameVec與articleIdVec，檔名以及文章ID)，之後再用 for 迴圈再一一針對每個檔案進行資料的處理。

File file = new File('來源資料夾名稱' + articlelist.txt);
BufferedReader bfr = new BufferedReader(new InputStreamReader(new FileInputStream(file)));

在前一篇有提到，我們要抓這些資料回來：

article_id : PTT給該篇文章的單一代號
article_title：該篇文章標題
author：該篇文章作者名
board：版名
content：內文
date：發表時間
ip：作者發表文章的IP
message_count：推文數量

在GetContentByArticleId()這個方法中，丟入剛才分別儲存為兩個Vector的變數filenameVec與articleIdVec，在for迴圈內取出各自index內的值再丟入GetContentByArticleId()中，如此會去各JSON檔中取出該文章ID的內文。

FileReader fr = new FileReader('來源資料夾名稱' + filenameVec.get(i));
BufferedReader bfr = new BufferedReader(fr);

由於每個JSON檔中都是用 articles 當作key製作為陣列，所以先取出陣列內的list：

JSONArray jsonarray = new JSONArray(obj.get(“articles”).toString());

之後在各自取出對應的資料，例如作者名稱：

author = articleobj.getString("author");

如此即可取出全部的變數。

免責聲明：本文章提到的股市指數與說明皆為他人撰寫文章內容，包括：選股條件，買入條件，賣出條件和風險控制參數，只適用於文章內的解釋與說明，此提示及建議內容僅供參考之用，並不構成投資研究、認購、招攬或邀約任何人士投資任何投資產品或交易策略，亦不應視為投資建議。

Day 05 : 先來當個爬蟲

Day 07：數據資料來源大部分解 (上集)

系列文

人工智慧 vs.工人智慧共 30 篇

RSS系列文訂閱系列文

36 人訂閱

完整目錄

熱門推薦

{{ item.channelVendor }} | {{ item.webinarstarted }} |

直播中

尚未有邦友留言

立即登入留言

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 17th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# linux windows server css react

IT邦幫忙

人工智慧 vs.工人智慧系列 第 6 篇