iT邦幫忙

2017 iT 邦幫忙鐵人賽
DAY 13
2
Big Data

我的資料科學之路系列 第 13

[Day 13] Power law

我前面有說過我想到甚麼就寫甚麼吧XD

這個主題跟資料科學拉不太上邊,但是跟統計比較相關。
但是到後面的幾篇文章就會拉回來了。

什麼是Power law

他其實是一個我們可以比較好去理解這個世界的概念而已,你可以把它看成是一個工具。
Power law是在敘述一個數量較小的現象有著很尋常的發生率,相對當他數量成長了,發生次數就非常稀少
這件事情在我們的生活中非常常見,像是收入的分佈、一個語言的字頻分佈、城市的大小分佈、網站的大小分佈跟書本的銷量分佈,也就是所謂的有錢人非常稀少,窮人非常多的概念。

我舉個例子,應該很多人聽過80/20法則吧!
他又被稱為Pareto Principle,他被一個義大利經濟學家帕雷托給發現到,他的敘述大概是世界上有80%的財富由20%的人所掌握,這個數字並不是個精確的數字,但是他的差異非常的大,讓人驚訝。

長尾理論

這是另一個為人所知的理論,他的理論基礎也跟以上的敘述同雷。
如果我們把這些分佈圖畫出來就像以下這樣,你可以把x軸代入富有程度,y軸代入人次,就可以看到上面所提到的現象了。

(此圖的軸並非吻合我們的例子)
這跟我們以往認知的常態分佈不一樣,他有著非常高的頭跟非常長而低的尾巴,所以被稱為長尾理論。

長尾理論在維基百科的論述是

帕雷托法則向來被商業界視為鐵律,其內涵認為企業界80%的業績來自20%的產品。就此看法,商業經營看重的是銷售曲線左端的少數暢銷商品。曲線右端的多數冷門商品,被該定律定義為不具銷售力且無法獲利的區塊。但長尾定論卻認為網際網路的崛起已打破這項鐵律,廣泛的銷售層面讓98%的產品都有機會銷售,而不再只依賴20%的主力產品,而這些具有長尾特性商品將具有增長企業營利空間的價值,對大公司來說最明顯的是客製化,其次對於中小企業還有獨特的設計、風格、思路等零散的產品線等。不但如此,長尾商品的規模還大得驚人,其商品的總值甚至可與暢銷商品抗衡。然而同樣的也是相當高風險的,因為各產品的市場都很小,儘管總量很大但是不一定某產品能創造利潤,成功產生的流行也會很快退去。

雖然以上兩個理論跟法則的論點各自不同,不過背後都來自同一個概念,或是說分佈。

冪次

語言學家George Kinglsey Zipf原本是想研究字被使用的頻率的關係,當他把一篇文章中字的使用頻率排序並把兩個軸都取log後,他得到了下面這張圖

這表示他得到了一個符合冪次的分佈圖,冪次可以用下面的簡單公式呈現出來,這就是所謂的Zipf's Law

http://ithelp.ithome.com.tw/upload/images/20161226/20103529doz8tc0jsO.png

其中的a是負值。

這一再的說明了冪次,也就是power law,在商業、社會科學等等領域中所扮演的角色,我們後面會談到他在生物學中的重要性。

參考:Data Science Basics: Power Laws and Distributions


上一篇
[Day 12] 不簡單的貝式網路
下一篇
[Day 14] Network science
系列文
我的資料科學之路34
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言