人類行為表現與特徵往往錯綜複雜,無法以簡易的線性模式或猜測便可得知,因此許多的統計方法或機器學習方法被應用於分類與分析人類行為。在進行分析時,較常使用的程式語言為R或 Python,然而上述兩種程式語言在處理數據或慣用語法上有著些許的不同,因此期望透過本次筆記進行記錄,以減少讀者未來重複搜尋相關語法或處理方式時所耗費的時間。
在進行模型訓練時,通常會將資料切一小部分來進行驗證。驗證資料集通常可用來檢視訓練過程中模型是否不斷的進步,而如何切分資料及,則可以用數個交叉驗證的方法來進行。...
在機器學習中共可分為三大類,監督式學習(Supervised Learning)、非監督式學習(Unsupervised Learning)、強化學習(Rein...
K Nearest Neighbors K近鄰(K Nearest Neighbors),簡稱KNN,為一種監督式學習的分類演算法,其觀念為根據資料點彼此之間的...
決策樹 決策樹可分為處理迴歸問題的迴歸樹(Regression Tree)、處理類別問題的分類樹(Classification tree)、可同時處理兩種類型問...
簡單貝氏分類器 簡單貝氏分類器(Naïve bayes, NB)為基於貝氏定理和隨機變數之間具有條件獨立的假設所建立的分類模型,可直接利用條件機率相乘算出聯合機...
支援向量機 支援向量機(Support vector machine, SVM)可以處理線性問題及非線性問題,由於變數之間大部分情況存在著相關性,因此模型運作概...
隨機森林 隨機森林(Random forest, RF)為結合多顆分類與迴歸樹(CART)組合而成的模型,因此是結合多個機器學習模型來建構出的一個較強的模型,而...
Ensemble Method - Boosting 集成方法(Ensemble Method)除了Bagging之外,另一個方法為提升算法(Boosting)...
K-Means的運作原理 人工決定樣本需分為K類 隨機給定K個中心點(未必為有資料所在的點,可能為任意一點) 計算每個資料點離K個中心點之間各自的距離,根據距...
分群的目的為讓群內的總變異最小,群間的總變異最大,因此在執行分群任務時,如何找到恰當的分群數目(k)是一個重要的課題。在衡量分群數量時,可使用手肘法(Elbow...