#24 數據中中的特徵相關性(3)

2021 iThome 鐵人賽

DAY 24

自我挑戰組

終極大數據地獄系列第 24 篇

13th鐵人賽

新增資料夾9

團隊NUTC_IMAC_NEW

2021-10-09 15:32:00

1685 瀏覽

分享至

基於上篇，有了數據特徵，再來就可以把歐氏距離發展為馬氏距離公式

馬氏距離公式(Mahalanobis Distance)

(1)馬氏距離的定義：有Ｍ個樣本向量$X_1$~$X_m$，協方差矩陣為S，平均值記為向量$\mu$，則其中樣本向量X到 $\mu$ 的馬氏距離表示為：
$D(X)=\sqrt{(X-\mu)^TS^{-1}(X-\mu)}$

而其中向量$X_i$與$X_j$之間的馬氏距離定義為：
$D(X_i,X_j)=\sqrt{(X_i-X_j)^TS^{-1}(X_i-X_j)}$

若協方差矩陣是對角矩陣，則公式變成了標準化歐氏距離公式

馬氏距離優點：量剛無關，排除變數之間相關性的干擾

用python實現馬氏距離

import numpy as np


def get_dist(a, b):
    X = np.vstack([a, b])
    V = np.cov(X.T)
    VI = np.linalg.inv(V)
    delta = a - b
    return np.sqrt(np.einsum('nj,jk,nk->n', delta, VI, delta))


if __name__ == '__main__':
    a = np.array([[1, 3, 564, 675, 6567], [2, 4, 6, 8, 10]])
    b = np.array([[1, 3, 5566, 675, 6567], [1, 3, 5, 7, 9]])
    print(get_dist(a.T, b.T))

output

[0.44278752 0.44278752 2.62436934 0.44278752 0.44278752]

tags: `tags: 2021IT`

#23 數據中中的特徵相關性(2)

系列文

終極大數據地獄共 24 篇

RSS系列文訂閱系列文

3 人訂閱

完整目錄

熱門推薦

{{ item.channelVendor }} | {{ item.webinarstarted }} |

直播中

尚未有邦友留言

立即登入留言

參賽組數

902 組

團體組數

37 組

累計文章數

19860 篇

完賽人數

528 人

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 17th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# linux windows server css react

趣味SQL 260224 時間區間重疊偵測與合併

IT邦幫忙

終極大數據地獄系列 第 24 篇

#24 數據中中的特徵相關性(3)

馬氏距離公式(Mahalanobis Distance)

tags: tags: 2021IT

尚未有邦友留言

標記使用者

終極大數據地獄系列第 24 篇

tags: `tags: 2021IT`