大數據時代，你應該具備的大數據思維

數據思維大數據時代

groots 2020-03-10 18:22:15 ‧ 1307 瀏覽

分享至

我們在思考問題時，當儘量避免因為自己的無知，提出一些低階的問題來。

我經常會被一些低階的問題，搞得沒了耐心。比如下面這樣的：

為什麼高材生，最後都很平庸？
我讀了清北，以後可以進投行嗎？
為什麼學區房那麼值錢，但學歷不值錢？
為什麼一個哈佛畢業的，收入還幹不過咪蒙？

上面這些問題，在很多場合都引起了廣泛討論。比如學區房和學歷那個，不少人找了一堆理由來解釋。但在我眼裡，它們都是很低階的問題。

為什麼？？？

因為它們都包含了極其低階的，不符合統計學常識的錯誤。具體有哪些錯誤，後面我會提到。
如果提問者懂一些統計學的常識，很多問題根本就不應該被提出來。要避免犯蠢，提出合理的科學的問題，就應該懂一些基本的統計常識。

以下內容，學過數學/統計學/計量經濟學的同學，應該知道我在說什麼。如果你不知道，那請你回去面壁思過一下。

一、樣本偏差

人們習慣通過很少的觀察值，就得出結論。這樣的結論，往往就存在樣本不足導致的偏差。
比如，你說吸菸有害健康，勸身邊人戒菸。菸民們常用的藉口是這樣的：
你看隔壁王大爺，都九十歲了，抽菸抽了一輩子，照樣健健康康的。張二蛋，煙酒不沾，三十歲就歸了西。所以呀，抽菸有害健康，都是扯淡騙人的！

比如，有人跟蹤過每年的高考狀元后來的職業發展路徑，最終發現這些狀元，絕大多數並沒有成為人中龍鳳，國之棟樑，於是他們得出結論：

高考狀元最終將走向平庸，高考對篩選人才並沒什麼卵用！

再比如，幾個清北畢業的人，上知乎回答了個問題，說自己清北畢業，也買不起學區房，甚至也在北京留不下來，於是就有人得出結論：

清北的學歷不如學區房值錢！

以上的例子，統統犯了小樣本偏差的統計錯誤。換句話說，考察的樣本太少，根本不可能得出可靠的結論。

看吸菸是否有害健康，應該看的是整個菸民群體和非菸民群體的比較，光一個王大爺和張二蛋怎麼能得出結論。

高考狀元的容量加起來不過幾百人，但非狀元人數上千萬，幾千萬人當中出現馬雲馬化騰，當然更正常。

說清北畢業買不起房的，也只是發聲的少數人，而那些悶聲發大財的清北人，看到這樣的結論，恐怕只會默默地罵一句SB。

說到樣本偏差，就必須提到有名的「紅球實驗」。

假設有兩個盒子：A和B.

A盒：2/3的紅球，1/3的藍球。
B盒：2/3的藍球，1/3的紅球。

現在我們把兩個盒子遮起來，從中隨機抽取小球出來。換句話說，這個時候，你不知道哪個是A哪個是B，只知道盒子1和盒子2。

我們從盒子1當中抽取了4個紅球和1個藍球，一共5個。從盒子2當中，抽取了20個紅球，10個藍球，一共30個。也即是：

盒子1：4個紅球，1個藍球，共5個。
盒子2：20個紅球，10個藍球，共30個。

現在問，哪個盒子更有可能是A盒，是1還是2？

多數人的答案是1。因為1當中紅球的概率是80%，而2當中只有67%。A盒當中的紅球概率更高，所以1是A盒。

但答案恰恰相反，盒子2才更有可能是A盒。因為在更多的樣本量下，它保證了紅球的概率遠高於藍球。

學過概率論的同學應該馬上反應出來，這是一個典型的條件概率問題，用貝葉斯公式可以很容易計算:
P(A|1)=P(A1)/P(1)=P(A1)/(P(A1)+P(B1))=0.89.
P(A|2)=P(A2)/P(2)=P(A2)/(P(A2)+P(B2))=0.99.

看不懂公式的同學可以略過，你需要記住一點即可：

統計推斷，樣本量越大，越可靠。基於小樣本的結論，往往都存在問題。
以後不要再很蠢地說，你看，名校畢業的也在北京買不起房，所以學歷沒什麼卵用。

二、相關性

混淆相關和因果，不能建立多元相關思維模型，簡直是人們犯蠢的重災區！

因果的意思是，A的發生必然會導致B，B的發生必然以A的發生為前提。相關則不一定，僅僅可能是A，B同時發生了。
比如暴飲暴食導致胃痛，就是一種因果關係。吃太多胃承受不了，必然會痛。胃之所以會痛，就是因為你吃了太多東西進去（控制其他變數的前提下）。

但名校畢業和賺很多錢，這就不是因果關係。這只是一種相關關係，而且是一種多元的相關關係。

換句話說，賺錢這個事實，不僅和學校學歷相關，還和很多其他因素相關，比如長相、行業、冒險精神等等。

現在明白我為什麼說上面那些問題很蠢了吧。誰告訴你清北畢業就一定可以去投行？同理，誰告訴你，哈佛的學生就一定比咪蒙賺錢賺得多？

清北畢業和去投行，只是相關性，且只是相關因子當中的一個，同理，哈佛畢業和賺錢多，也是這個道理。

如果把一個結果稱為Y，諸多和它相關的因素稱為X，那麼Y和X的關係應該是：
Y=AX.
其中A=[a0,a1,a2…an], X=[x0,x1,x2…xn]’
以上是一個最基本的多元相關模型。比如，賺錢是Y，那它對應的X，包括了學歷、起始資本（家庭背景）、努力程度、長相，等等。

如果以多元相關模型來思考問題，根本就不可能提出為什麼一個哈佛的還不如咪蒙賺得多這種愚蠢的問題。

明白了這一點，你也不會再提憑什麼奶茶長得好看就可以搞定東哥，為什麼美聯儲加息了股票反而上漲，名校畢業的不如技校畢業的賺得多，這一類愚蠢的問題了。

簡單來說，記住一點：

事情的發生，往往都是一個複雜系統裡，多因素共同作用的結果。
凡事都儘量避免用單因素模型去解釋。這是避免你變得很蠢的重要思維法寶。

三、控制變數

控制變數的意思是，控制了這個因素，來看其他因素對事物發生的影響。最直觀的表達就是 “假設其他條件不變的情況下”，這種假設，就是很典型的一種控制變數的假設。

回到我們之前討論的名校畢業掙錢不多的問題，名校畢業照樣買不起學區房，很多人據此得出結論：

名校也沒什麼卵用，甚至上大學也沒什麼卵用，照樣買不起房，還不如王小二開個煎餅攤子掙得多。

這個推理最大的問題就是控制變數的不可比。

你在對比名校畢業生和開早餐鋪子的王小二時，隱含了一個極為重要的有關控制變數的假設：

除去學歷這個因素，其他條件都是一樣，且不變的。

但很顯然，一個清北畢業生和沒上過大學的王小二，除去學歷的不同，在其他方面，也就是控制變數方面，也存在巨大的差異！

換個思路，不用橫向對比，縱向來看，假設其他條件不變的情況下，一個清北畢業生，沒有清北的學歷，他會過得更好還是更慘？

這樣的比較才是有意義的。

同理，也只有比較具有類似家庭背景，長相水平，努力程度的清北畢業生和一般學校甚至沒上過大學的人，他們誰掙錢多，這樣的比較才是有意義的。

英文當中有個很好的表達叫 Apple to Apple，就是比較物件要要一致。可惜我們大部分人做的都是Pear to Apple這樣的比較，毫無意義。

再說一遍，我們考察單一變數對結果的影響時，一定要保持控制變數的不變且可比。不然這樣比較得出的結論，毫無意義。

你不能因為天天撩妹的王思聰，比天天工作十六小時的投行民工，錢更多，就據此否認努力工作沒有用。你也不能因為同學有個好爸爸，就否認平民家庭出身的人奮鬥沒有意義。

在考察努力這一變數對成功的影響上，你和比爾蓋茨的“控制變數相同”的假設並不成立。

反過來，就你自己而言，控制其他變數不變，你不努力和努力的結果差異，一下子就會清晰起來。這才是思考問題的正確方式。

不少反雞湯人士認為，努力沒什麼用，家庭出身決定一切，先天條件決定一切，時代大勢決定一切，這些論點，統統都是愚蠢的，也是錯誤的，因為他們忽略了控制變數的因素。

四、系統思維

統計常識除了以上三點，還有很多。比如假設檢驗，樣本和母體的關係，統計一類和二類錯誤，置信水平等等，文章裡沒辦法一一講述。

但我認為，弄清本文的三個基本常識，已經可以幫你避免很多愚蠢的錯誤。這些常識不是相互孤立的，在考察問題的過程當中，常常會同時運用到它們。

比如還是說名校畢業生買房的問題。

首先要問，是不是真的清北畢業生就買不起學區房，這個樣本到底有多大？是不是小樣本偏差，或者倖存者偏差得出的這個結論？

其次我們要想，清北畢業生買不起學區房，是一件多麼令人驚訝的事情嗎？當然不是，因為掙錢這個事情，本身並不只和學歷相關，它還和很多其他因素相關。

也因此，名校畢業的同學，也不要總覺得自己有什麼了不起，你得清晰地意識到，收入水平和你的教育程度，並非因果關係。意識到這一點，能讓你認清真相，接受現實，並更好得在其他方面去努力。

最後，因為其他方面的因素，比如家庭出身，比如行業影響，即使名校畢業真的也買不起房，你就要因此感到沮喪和否定名校教育帶給你的價值了嗎？當然不應該！

因為控制變數的思想告訴你，其他條件不變的情況下，你讀不讀名校，收入的差異還是非常顯著的。

綜合以上，我們在思考問題時，當儘量避免因為自己的無知，提出一些低階的問題來。

今天小編想和你聊聊的，是學好統計的現實好處。

第一，學會看問題，懂得數字的意義。

例如，新聞報道中經常說某市人均收入為1萬元。每每出現這樣的報道，就有很多網友驚呼自己被平均了。為什麼會造成這樣的認知錯覺呢？這是因為新聞報道並沒有告訴我們資料的分佈是什麼樣的。比方說，可能有20%的人掌握了80%的收入，餘下80%的人掌握了總收入的20%，那這80%的人肯定覺得自己被平均了。所以，學過統計的人，當看到這樣的數字的時候，就會多問幾個為什麼，就能明白數字背後的真實含義了。

此外，如果你學了統計學的抽樣原理，或許你會進一步質疑，這個人均收入是怎麼算出來的。是統計了全市所有人口的收入資料，還是隻抽取了一部分人的收入資料。如果是抽取了一部分人，是按照什麼原則抽取的？這些都會影響到資料的真實性與可信性。

第二，用資料說話，讓你的說服力要爆表。

當你向領導彙報工作的時候。

新人甲是這麼彙報的：
今年我們在華東市場一共投入了100萬元推廣費用。我們做了很多有影響力的活動，產生了良好的品牌效果。使用者對我們的產品非常認可，在使用後很多都成為我們的忠誠的使用者。我們在華東地區的市場佔有率進一步提升。我希望明年能加大在這一地區的投入，以便產生更好的市場效果。

新人乙是這麼彙報的：
今年我們在華東市場一共投入了100萬元推廣費用。其中，投放廣告50萬，落地活動宣傳30萬，促銷樣品20萬。共帶來3萬新增使用者，提升市場佔有率5個百分點，預計在未來一年提升這一地區的銷售額500萬元。

如果你是領導，你會喜歡哪個彙報？

很顯然，大部分人會選擇後者。清晰的資料能傳達清晰的資訊。那些非常、很多、進一步寫在公文裡或許還可以，但是在市場彙報中，這種詞彙簡直就是一團漿糊。領導早晨在家裡已經挨訓了，你就不要給領導添堵啦。

第三，體驗到一種與眾不同的思維方式。

最近朋友圈子流行兩隻大熊貓的萌對話，其中一隻對另一隻說，你看看我們，就知道這個世界非黑即白。另外一隻大熊貓於是伸出了紅色的舌頭。這個笑話告訴我們，世界並非非黑即白。統計學的思維就是永遠不肯定這個世界到底是什麼樣子的。統計學永遠是講概率的，就是可能性。莊子說，一尺之錘，日取其半，而萬世不竭。這就是一種概率思維方式。所以，嗯，我喜歡宋冬野，他唱到：昨天晚上，我差一點就他媽地死了。他到底死沒死啊。可能性，是最值得人玩味的。
第四，像佛那樣懂因果，知報應。

統計學常常研究兩個因素之間的關係，叫做因果關係。例如，你的學歷對你收入的影響。統計學家可能會說，學歷每提升一個層次，年收入將提高1.2萬元。所以不要相信讀書無用論，你要相信概率。如果你相信自己能成為比爾蓋茨，那讀書對你確實沒意義，同樣，這只是小概率事件，基本不會發生在你身上。

熱門推薦

{{ item.channelVendor }} | {{ item.webinarstarted }} |

直播中

尚未有邦友留言

立即登入留言

參賽組數

902 組

團體組數

37 組

累計文章數

19838 篇

完賽人數

528 人

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 17th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# linux windows server css react

IT邦幫忙