(Day1)資料分析與預測中的應用概述

2024 iThome 鐵人賽

DAY 1

AI/ ML & Data

16th鐵人賽

649 瀏覽

前言

在現代數據驅動的世界中，統計分析已成為資料分析與預測的核心工具。無論是在商業、醫學、工程還是社會科學領域，統計分析都能提供有價值的見解，幫助我們做出明智的決策。在接下來的 30 天將深入探討各種統計分析方法，並展示如何利用這些方法進行資料分析與預測。

統計分析是指通過收集、整理、分析、解釋和呈現數據來了解現象的過程。它通常分為描述性統計和推論性統計兩大類。

線性回歸 (Linear Regression)
線性回歸是最基本且廣泛使用的預測模型之一。它假設目標變數與一個或多個自變數之間的關係是線性的。透過建立線性模型，我們可以預測目標變數的未來值。
邏輯斯迴歸 (Logistic Regression)
邏輯斯迴歸適用於分類問題，特別是二元分類。它通過模型預測輸出變數為某一類別的概率，在許多實際應用中（如信用評分、疾病診斷）廣泛使用。
決策樹 (Decision Tree)
決策樹是一種非參數的監督式學習方法，用於分類和回歸。它通過樹狀結構來決策，具有良好的解釋性和靈活性。
隨機森林 (Random Forest)
隨機森林是決策樹的集成方法，通過訓練多個決策樹並聚合它們的預測結果來提高模型的準確性和穩定性。這個方法在處理高維數據和防止過擬合方面非常有效。
主成分分析 (PCA, Principal Component Analysis)
PCA 是一種降維技術，通過找出數據中最具代表性的特徵來簡化數據結構。它在資料可視化和資料預處理中非常有用，特別是當處理高維數據時。