iT邦幫忙

2022 iThome 鐵人賽

DAY 12
0
AI & Data

預測惱人的人事物:跟我一起學習如何用資料分析來避開他們系列 第 12

文獻閱讀整理:Better Forecasting, Silence the Noise (Part 1 of 2)

  • 分享至 

  • xImage
  •  

以下內容為編譯自

https://knowledge.wharton.upenn.edu/article/want-better-forecasting-silence-the-noise/

前言 & 導讀

必須承認,選了這篇確實是誤打誤撞。由於英文的 noise 除了噪音的意思以外,也可以代表雜訊。本文主要是在說明雜訊是如何影響預測的,與預測噪音是沒有太大關聯的。昨天直接看完副標題以及看到中間的段落跟訓練模型有關,便推估在講述關於預測噪音相關的主題,是我的疏失,在此跟讀者們致歉。

然而之所以會繼續閱讀並且整理,是因為看完前兩段以後,確實內文有提到一些預測的方法論以及可以啟發思考的論述,而且是科普性質的談話節目整理出的逐字搞,可以快速加深筆者對此議題的認識。

主要論點

  1. BIN model: 分別代表偏見(Bias)、資訊(Information)以及雜訊(Noise):
    1. 為「Ville Satopӓӓ 教授」的研究結果與論點。
    2. 資訊:表示我們對於所要預測的事件知道多少
      1. 愈大量,表示預測可以愈精確。
      2. 假設對於議題完全無知,一開始的準確度就是 50%。然而開始獲得一些資訊之後,預測準確度就會偏向某一邊,而偏向本身也會左右著最後發生的結果。
      3. 由於人類並非理性,所以預測的結果勢必會有錯誤。這些錯誤可歸類於兩類:偏見以及雜訊
    3. 偏見:是系統性錯誤,可以再分成:
      1. 正面偏差:預測高機率會發生。
      2. 負面偏差:預測低機率會發生。
    4. 雜訊:隨機的錯誤
      1. 不論我們對於預測者的瞭解有多深,永遠都不可能知道雜訊到底是偏向哪邊、或有多少。
      2. 預測結果多樣:正因為有這些雜訊,才會有基於同樣事實作出的不同預測結果。
      3. 相較於偏見,雜訊對於預測結果是無用且無關聯的
      4. 雜訊對於預測的影響比偏見來得大。假設總共能改進預測空間共 100%:
        1. 資訊佔 25%
        2. 偏見佔 25%
        3. 雜訊佔 50%
      5. 在時間線上,愈靠近結果發生,資訊會增加、偏見會減少,只有雜訊是維持不變的。
  2. 人們傾向思考預測就是要 0% 或 100%:
    1. 介於中間的預測,為校準過的(calibrated)。
    2. 我們不能夠用一般的或然率的概念來解讀介於中間的預測:
      1. 如果說預測發生的機率是 30%,那表示如果我們能觀測 100 個平行宇宙,其中 30 個就會發生那個事件。
      2. 如果結果不發生,我們可以說「30% 會發生的預測」一定比「20% 會發生的預測」錯得還要更多一些。但人們傾向認為非黑即白,兩者錯的程度一樣。
    3. 即便最終沒有發生,不代表是個不好的預測。
  3. 在看預測的時候,人們應該要隨時提醒自己可能會錯誤或忘記解讀的面向。
  4. 當人以群體行動的時候,偏見會被消除,但被消除更多的是雜訊
  5. 使用演算法將人為因素抽離,進而消除雜訊。
    1. 人可能因為頭痛、分心、不同的心情等因素導致我們對於同樣的資訊組合,作出不同的判斷。所以交給機器做判斷會比較好。
    2. 但矛盾的是將人為因素抽離並不是大多數人希望看到的。例如人們不希望被電腦判斷有罪無罪,或是被診斷出罹患癌症。
    3. 但以目前機器的限度,仍然難以預測一些事件,例如英國是否脫歐、或是量子電腦是否帶來能源科技的革新。在這類的事情,人們可以作出預測,即便這些預測都是帶有大量雜訊的。

收工,讓我們明天繼續讀下去!


上一篇
分析方法調查:文獻查找
下一篇
文獻閱讀整理:Better Forecasting, Silence the Noise (Part 2 of 2)
系列文
預測惱人的人事物:跟我一起學習如何用資料分析來避開他們38
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言