第一個禮拜應該都偏這種名詞無聊的東西,之後在慢慢變成比較有實作的東西
在開始 KDD 之前,我們可以先思考,從 AI 的前提開始想
什麼是「資料」、「資訊」以及「知識」?
資料表示的可能是一組最原始的數字,可能有各式各樣的意義
資訊則是將資料進行整合或清理,得到有如「Data Warehouse」,
最後將資訊進行探勘、分析,找出資訊的特徵,並針對不同特徵分類,找出最適合的則是知識(Knowledge)
來源:https://www.slideshare.net/sanjaypaularvind/lecture-data-mining
KDD: Knowledge Discovery (KDD) Process
於是把問題拉回什麼是 KDD,KDD 即上面所述從資料的蒐集,到最後成為 Knowledge 的過程
Input Data -> Data pre-processing -> Data mining -> Data post-processing -> Pattern Information Knowledge
Data pre-processing 可能包含:資料整合 (integration)、正規化 (Normalization)、特徵選取 (Feature selection) 以及降維 (Dimension reduction) 等操作
Data mining 可能包含:Pattern discovery、Association & correlation、Classification、Clustering、Outlier analysis
Data post-processing 可能包含:Pattern evaluation, selection, Pattern interpretation, Pattern visualization
然而講了這麼多有關 Knowledge,到底又有什麼意義呢?
從古至今(?),AI 一直都在發展,「知識」便扮演了一個重要的角色
M. L. Minsky 發表的框架 (Frame) 理論,就是一個利用了「知識表示法 (Knowledge Representation)」的例子,即研究如何將複雜的相關訊息表示於電腦系統。
下次當你/妳在找各式資料來 train 時,不妨想想,原來,這是一個如此可愛又迷人的過程!