iT邦幫忙

2021 iThome 鐵人賽

DAY 22
0
自我挑戰組

終極大數據地獄系列 第 22

#22 數據中中的特徵相關性(1)

特徵列的研究主要應用於預測活動。舉例來說,在金融分析中,透過兩檔股票價格波動的相關,來判斷他們之間的關係,以期達到最大化收益的同時最小話風險的目的。

關於預測,機率論提供了一套完整的數學方法。
再來說一些隨機變數的重要特徵。隨機變數,一般是向量,可以包涵不同設定值範圍的多個變數,我們的目的就是要研究這些變數的分佈情況,也就是隨機變數的數字特徵,從中發掘出一定的規律性。

  • 期望:衡量樣本某個特徵列設定值範圍平均值。
  • 方差:橫量樣本某個特徵列設定值範圍的離散程度。
  • 協方差矩陣和相關係數:橫量樣本特徵列之間線性相關性。

相關係數(Correlation Coefficient)

  1. 相關係數定義:
    https://chart.googleapis.com/chart?cht=tx&chl=%5Crho_%7BXY%7D%3D%5Cfrac%7BCov(X%2CY)%7D%7B%5Csqrt%7BD(X)%7D%5Csqrt%7BD(Y)%7D%7D%3D%5Cfrac%7BE((X-EX)(Y-EY))%7D%7B%5Csqrt%7BD(X)%7D%5Csqrt%7BD(Y)%7D%7D

相關係數是衡量兩個特徵列之間相關程度的一種方法,其設定值範圍是[-1, 1]。相關係數的絕對值越大,表明特徵列X與Y的相關程度越高。當X與Y線性相關時,相關係數設定值為1(正線性相關)或-1(負線性相關)。


上一篇
#21數據中的機率(2)
下一篇
#23 數據中中的特徵相關性(2)
系列文
終極大數據地獄24

尚未有邦友留言

立即登入留言