iT邦幫忙

0

雙峰....與遞迴

雙峰是許多人關注的焦點....我是說統計學上, 呈現出兩種傾向.
比如: 生育率以高所得及低所得為主, 中產階級的生育率反而偏低.

而在程式分析時, 就會遇到一個難題, 平均數跟中位數都不在雙峰上.
所以為了確認是否呈現雙峰分布, 甚至更多峰分布, 就要靠"眾數"這個功能.

一般呈現常態分布的統計資料, 平均數, 中位數, 眾數三者是非常接近,
如果中位數跟眾數接近, 這兩者跟平均數卻比較遠, 那就是雙峰的一個特性.

所以程式可以先以所有樣本計算第一次, 如果符合上述特徵,
再以眾數加上一定差異(例如: 兩個標準差),
然後剔除掉這些相近的資料, 就剔除掉一個峰值,

剩下的資料, 再重新取一次眾數, 就是第二個峰值,
再重複執行到平均數, 眾數, 中位數覺得差不多了, 就屬於最後一個峰值,
重複這些過程, 就可以用遞迴的方式處理.

只是當中難的地方, 就是平均數與眾數, 中位數到底差多少才算雙峰?
可能就要從其他相關的統計中, 先求出一個常態分布的樣本, 再排除這種樣本特性去考慮.

(什麼? 寫程式? 我不會.... ;p )

同步發表於個人Blog: https://slimetw.blogspot.com/2019/05/blog-post.html


尚未有邦友留言

立即登入留言