iT邦幫忙

鐵人檔案

2022 iThome 鐵人賽
回列表
AI & Data

人類行為數據分析- 以R和Python進行實作 系列

人類行為表現與特徵往往錯綜複雜,無法以簡易的線性模式或猜測便可得知,因此許多的統計方法或機器學習方法被應用於分類與分析人類行為。在進行分析時,較常使用的程式語言為R或 Python,然而上述兩種程式語言在處理數據或慣用語法上有著些許的不同,因此期望透過本次筆記進行記錄,以減少讀者未來重複搜尋相關語法或處理方式時所耗費的時間。

鐵人鍊成 | 共 30 篇文章 | 16 人訂閱 訂閱系列文 RSS系列文 團隊NTUEPM_STAT LIFE
DAY 1

[Day1] 穿戴式裝置介紹

隨著科技的進步,穿戴式裝置逐漸受到大眾的歡迎,市面上所販售的穿戴式產品所提供的功能也不斷地更新,可以監測生理相關數據並提供健康相關的建議。 穿戴式裝置有分為許多...

2022-09-12 ‧ 由 anonymous9007 分享
DAY 2

[Day2] 穿戴式裝置資料集介紹

本次鐵人賽預期使用兩個資料集,但在後續分析中可能會使用其他資料集作為補充。資料集介紹如下: Mobile Health Human Behavior Ana...

2022-09-13 ‧ 由 anonymous9007 分享
DAY 3

[Day3] 資料分析流程概述

常見的資料分析流程如下: 圖片來源:https://www.flaticon.com/ 資料描述 (Data exploration) 了解資料內有哪些欄...

2022-09-14 ‧ 由 anonymous9007 分享
DAY 4

[Day4] 資料視覺化(Data visualization)

資料視覺化是我們了解資料的第一步,透過圖形的呈現,使我們對於資料有更近一步的了解。常見的資料描述圖為直方圖(histogram)、盒鬚圖(boxplot)、折線...

2022-09-15 ‧ 由 anonymous9007 分享
DAY 5

[Day5] 敘述性統計(Descriptive statistics)

除了透過資料視覺化來探索資料外,敘述性統計(描述性統計)也能幫助我們對於資料有更全面的了解。敘述性統計為以統計學的角度來描繪資料情況(如:集中趨勢、離散程度、資...

2022-09-16 ‧ 由 anonymous9007 分享
DAY 6

[Day6]遺失資料(Missing data)處理

造成遺失值的機制可分為三大類, 完全隨機遺失(missing completely at random, MCAR)遺失值的產生皆為隨機的 隨機缺失(m...

2022-09-17 ‧ 由 anonymous9007 分享
DAY 7

[Day7]資料平滑化(Smoothing)

在時序資料前處理中,smoothing為最常見的一個資料前處理的步驟,其目的在於移除資料中的干擾(noise),期望找到長期(long-term)的特徵並減少短...

2022-09-18 ‧ 由 anonymous9007 分享
DAY 8

[Day8]資料正規化(Normalization)與標準化(Standardization)

為何需要做正規化(Normalization)與標準化(Standardization) 資料中不同變數往往有不同的單位、不同的數值範圍,例如:加速度計所記錄的...

2022-09-19 ‧ 由 anonymous9007 分享
DAY 9

[Day9]不平衡資料(Imbalanced data)

為何需要處理不平衡資料 在進行分類問題時,可能會碰到資料不平衡的問題。人們往往會透過模型想要找到數據中較為少數的那部分,如:信用卡盜刷紀錄、垃圾郵件識別等。當數...

2022-09-20 ‧ 由 anonymous9007 分享
DAY 10

[Day10]衡量指標(Measurements)

我們會透過驗證指標來驗證模型的表現能力,根據類型,可分為分類指標與迴歸指標。 分類模型所使用的指標(二元)分類問題的結果可以使用混淆矩陣(confusion...

2022-09-21 ‧ 由 anonymous9007 分享