iT邦幫忙

2022 iThome 鐵人賽

DAY 17
0
AI & Data

預測惱人的人事物:跟我一起學習如何用資料分析來避開他們系列 第 17

文獻閱讀整理:資料分析需要的統計學

  • 分享至 

  • xImage
  •  

由於筆者找到的第一篇內容就有回答到一些疑惑,故先不繼續找其他的參考文獻,直接從這篇開始。

統計學與資料分析之間的關係

統計和機器學習之間的實際區別

由中興大學生物系統工程研究室的陳加忠教授編譯整理。

原文:https://towardsdatascience.com/the-actual-difference-between-statistics-and-machine-learning-64b49f07ea3

註一:筆者對照了幾段原文和中譯文,譯文中還有三處陳教授的註解,針對原文的概念的進行評價,讀者們可以直接閱讀陳教授的譯文即可。

註二:同一篇文章有另一篇的中譯文:機器學習跟統計學差在哪?哈佛博士:機器學習重視預測結果,統計學在乎因果推理,兩篇的翻譯風格不同,有不理解之處,可相互對照。


論點整理

  1. 統計和機器學習的關係,實際需要釐清的是:
    1. 統計學與機器學習的不同。
    2. 統計模型與機器學習的不同。
  2. 統計建模和機器學習的相似會被誤以為同一件事:
    1. 例如線性迴歸是一種統計方法,目的在最小化數據點之間的平方誤差。
    2. 我們也可以訓練機器並獲得與統計迴歸模型相同的結果。
    3. 陳教授認為不正確,理由是統計學中迴歸分析其實具備預測性能
  3. 機器學習就是關於結果,不關心模型是否可解釋。
    1. 原文舉例「化學動力學產生的非線性以及物理變數與氣體濃度之間的關係,該模型可能會像神經網絡一樣更加深奧。」
    2. 溫度其實是一種統計的結果,因為溫度為氣體分子運動產生結果之總和。
  4. 統計在乎的是數據變數之間的關係,具有一定程度的統計顯著性
  5. 許多研究人員使用他們不理解的演算法並獲得似是而非的推論
    1. 大多數機器學習演算法缺乏解釋。
    2. 難證明數據之間的關係。
  6. 數據科學本質上是應用於數據的計算和統計方法,這些數據可以是小型或大型數據集。
  7. 統計學和機器學習之間最主要的區別在於統計學完全基於機率空間。
  8. 關於為何需要「損失函數」,作者給予了非常好理解的脈絡:
    1. 有個集合,每個數據點由被稱為 x 的「特徵」來描述,並且同時具備我們想要的 y 值。
    2. 我們想要如何找到將 x 值映射到 y 值的函數
    3. 預期風險 = 損失函數之和 * 數據的機率分佈。
    4. 作出不同最優函數的假設,再實證驗證損失函數是否得到優化,找出最小預期風險的那個假設,也就是所有函數中得出最小下確界值的那個假設。
    5. 為了取得最小化損失函數,演算法有透過過度擬合 (overfitting) 來作弊的傾向。
    6. 陳教授註解:統計迴歸已有此種訓練與測試之概念,並非純然是機器學習的概念。
  9. 如果只是想要創建一個高度準確的演算法,或者從數據中找出哪類人更容易得某種疾病,機器學習可能是更好的選擇。如果你希望找出變數之間的關係或從數據中得出推論,選擇統計模型會更好。
  10. 如果你統計學基礎不夠紮實,你依然可以學習機器學習並使用它——機器學習程序庫裡的抽象概念能夠讓你以業餘者的身份來輕鬆使用它們,但你還是得對統計概念有所瞭解,從而避免模型過度擬合或得出些貌似合理的推論。

預計行動

  1. 在找尋資料的過程中,發現了「機器學習的統計基礎:深度學習背後的核心技術」這本書,稍微閱讀章節與介紹後,認為相較於碎片式的知識,讀書可以更快也更有體系地獲得想要的知識以及解答疑惑。筆者將會在這幾天取得並開始閱讀、整理筆記與讀者分享。
  2. 根據以上論點第九點、第十點的概念,筆者認為目前或許可以同步找實作型的技術文章閱讀,並能在系列第 21 天的順利開始實作

上一篇
到底資料分析需要多少統計學?
下一篇
文獻閱讀實作:整理檔案結構 & Python 環境設置
系列文
預測惱人的人事物:跟我一起學習如何用資料分析來避開他們38
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言