資料分析流程的第一步絶對不是資料,而是把分析的議題訂清楚,先確認要處理的問題是什麼、它有什麼特點、主要想要透過什麼樣子的「提問(資料輸入)」得到什麼樣式的答案,這是最為根本的,如果這個方向性的命題不對,後續對於資料的努力一定白費功夫。
之後就是以分析的類型來決定可能的資料樣式。
然後取得資料。資料的取得除了資料的完整性,還是兼顧它的一致性,還要區分得了它是連續性資料、類別性資料,以及維度一致,另外,數量值的一致或者需不需要Normalize,也要一併考量。如果分析的議題是時間序列、空間相關、或是縱橫資料,都要留意取得資料的特性。
資料取得後也不是一步就分析,最好要透過DEA來對資料有一個總體的瞭解,如果可以先做關聯性的分析、敍述性的分析,對於連結至資料問題的分析將會有很大的幫助。
機器學習、統技手法或是深度學習的演算法的套用,除了必需要切合資料分析的目的,也要配合取得、結構化後的資料而定,通常,最穩定的方法就是最好的方法、解釋力最高的方法也會是最好的方法。
模型的留存、佈署,則依照這個資料分析的系統特色而定,是專用軟體、雲端系統或是學述一次性分析,都將會依原始命題而定,這不會是一個不變的做法。
在這次的專題中,因為已經可以透過公開資料取得相關結構化的資料,所以後續的分析會著重在資料的可視化、關聯性,如果順利,會再將趨勢預測加入,然後會以專用手機app 的方式來做佈署。