人類行為表現與特徵往往錯綜複雜,無法以簡易的線性模式或猜測便可得知,因此許多的統計方法或機器學習方法被應用於分類與分析人類行為。在進行分析時,較常使用的程式語言為R或 Python,然而上述兩種程式語言在處理數據或慣用語法上有著些許的不同,因此期望透過本次筆記進行記錄,以減少讀者未來重複搜尋相關語法或處理方式時所耗費的時間。
隨著科技的進步,穿戴式裝置逐漸受到大眾的歡迎,市面上所販售的穿戴式產品所提供的功能也不斷地更新,可以監測生理相關數據並提供健康相關的建議。 穿戴式裝置有分為許多...
本次鐵人賽預期使用兩個資料集,但在後續分析中可能會使用其他資料集作為補充。資料集介紹如下: Mobile Health Human Behavior Ana...
常見的資料分析流程如下: 圖片來源:https://www.flaticon.com/ 資料描述 (Data exploration) 了解資料內有哪些欄...
資料視覺化是我們了解資料的第一步,透過圖形的呈現,使我們對於資料有更近一步的了解。常見的資料描述圖為直方圖(histogram)、盒鬚圖(boxplot)、折線...
除了透過資料視覺化來探索資料外,敘述性統計(描述性統計)也能幫助我們對於資料有更全面的了解。敘述性統計為以統計學的角度來描繪資料情況(如:集中趨勢、離散程度、資...
造成遺失值的機制可分為三大類, 完全隨機遺失(missing completely at random, MCAR)遺失值的產生皆為隨機的 隨機缺失(m...
在時序資料前處理中,smoothing為最常見的一個資料前處理的步驟,其目的在於移除資料中的干擾(noise),期望找到長期(long-term)的特徵並減少短...
為何需要做正規化(Normalization)與標準化(Standardization) 資料中不同變數往往有不同的單位、不同的數值範圍,例如:加速度計所記錄的...
為何需要處理不平衡資料 在進行分類問題時,可能會碰到資料不平衡的問題。人們往往會透過模型想要找到數據中較為少數的那部分,如:信用卡盜刷紀錄、垃圾郵件識別等。當數...
我們會透過驗證指標來驗證模型的表現能力,根據類型,可分為分類指標與迴歸指標。 分類模型所使用的指標(二元)分類問題的結果可以使用混淆矩陣(confusion...