就像稻米之於米苔目,小麥之於麵疙瘩,原始資料就是任何資料產品最基礎的存在。
在研究所修讀統計的時候,教授常常掛在嘴邊的一句話就是「garbage in, garbage out」。統計就是什麼資料放進去都可以算出什麼結果,但是這個結果要有意義的先決條件就在於拿來分析資料的品質。資料的品質和種類會直接地影響資料產品最終的品質。
這邊就來舉一些耳熟能詳由於資料品質偏差造成的謬誤
PTT 鄉民年收入都 100 萬起跳
PTT Salary 版常常有人在分享薪資,不管是剛轉職三年破百,還是強者我同學大學一畢業就破百,都沒看到有人薪水低於 100萬的例子。如果你是一個資深 PTT 鄉民,可能就以為這個世界薪水就是百萬起跳。大家都知道這是謬誤(看看自己的薪水條),但到底是哪裡有問題?我們可以從以下幾點來分析:
如果是面對面訪談,我們還可以從眼睛大概的去辨識性別和年齡,但如果是電話訪問或線上調查,這些都無法直接證實,何況是更難判斷職業和收入。但也有一派的論點是說,由於網路的匿名性,受訪者會比較願意提供真實的資料作為參考,但是隨著網路也越來越不匿名(可能透過 ID 或 IP 反查個人),這樣的調查本身的真實性就受到考驗。
倖存者偏差?
倖存者偏差是一種選擇上的謬誤(Wiki-倖存者偏差)。PTT 大家都知道是一個相對老派的社交平台,而且當初 PTT 就台大學生用最多,所以會留在上面發文的都是一群本來學歷就還不錯,而且都有些工作經驗的人,所以大家的起薪本來就會比政府調查的還高很多。
由於抽樣設計不良的抽樣誤差
如果基於實務考量無法調查所有人的薪資,那我們就抽樣吧。抽樣本身是個好主意,那要怎麼抽呢?網路上發放問卷看起來是一個挺隨機的方法,但也會受到「問卷可觸及到的所有可能受訪者」這個限制。例如如果你只把問卷放在 PTT 上,那其實也只有 PTT 上的使用者有可能填問卷。如果你把問卷放在抖音上,那接觸到的受訪者就是另外一批人。
即便是使用電話隨機撥號,也是只能接觸到擁有電話號碼的人,如果有一個人有一千個電話號碼,那這個人接受到訪問的機率也會大幅上升。
就算是設計良好的抽樣本身還是存在的抽樣誤差
抽樣本身在統計上就帶有一定的不確定性。配合適當的統計方法可以幫助我們這個抽樣誤差的影響。但還是會發生誤差!醫學檢驗本身也帶有統計的性質,所以有可能發生下面這種在男性身上檢驗出懷孕,或是在懷孕女性身上檢驗出沒有懷孕的狀況。需要配合多個檢驗方式才能確定情況(例如眼睛)。
(Image source: unbiasedresearch.blogspot.com)
大數據不就好了?
的確大數據幫忙我們處理了抽樣的問題,但是大數據也無法直接的解決資料本身是否真假的問題(當然我們可以透過各種數據的比對來驗證資料真假)。但是當數據太多的時候,也會造成資料在處理以及計算上的煩惱,到那時後還是需要透過其他手段來降低資料處理的複雜度或是計算時間。
收集資料時的其他可能偏誤
即便使用電子產品(例如 APP)來搜集使用者使用資料,像是點擊、瀏覽,看起來定義很清楚,而且很自動化的收集方式,還是有可能產生誤差。例如使用者重複點擊的行為、或是使用爬蟲造成的虛假點擊、或是由於網路傳輸問題造成的資料傳輸失敗等等。沒有絕對萬無一失的資料搜集方式!
我們需要原始資料來做分析,但是又不可能完全避免原始資料的各種偏誤,這就是我們面對的現實。因此在分析資料時更需要小心處理各種「Insight」。
例如透過爬蟲搜集 PTT 資料發現鄉民平均 30 公分時,需要回追你搜集的資料是出現在哪些版面、大家又是在什麼情境下提到 30 公分、是一個開玩笑的語境、還是是一個認真在討論、求知的語境。
當你今天發現自己 APP 的每天活躍人數掉了 80% 時,先不要緊張,可以先循序列出你的分析報告使用的資料是從哪來,依序去觀察是不是哪部分的資料漏掉或有處理上的錯誤,說不定只是哪個 Web 更版沒有帶到追蹤碼、或是哪個資料欄位命名錯誤而已。