隨著資料收集愈來愈便利的時代洪流下,許多科學領域的發展常常包含利用統計與數學的方法找出資料所蘊含的寶貴資訊,也有許多學校與線上學習資源開設相關的課程,此系列將利用30天整理統計與機器學習的筆記,以及Python的操作。
前言 在資料收集愈來愈便利與科學運算愈來愈快的時代下,科學家們致力於找出資料中重要的模式與趨勢,也稱為從資料中學習(learning from data),使得...
前言 在我們將資料放入機器學習的演算法之前,如何利用程式幫我們準備好資料是重要的,常常聽到 "Garbage in, garbage out"...
前言 在資料分析前後都需要有視覺化的幫忙,將資料或模型的結果換一個方式來有效率地呈現其中的資訊,使其他人能更容易理解資料的模式、趨勢以及找出異常值。最基本的視覺...
前言 在監督式學習中,我們可以將收集而來的資料切割為訓練集與測試集來尋找表現最好的模型,而這兩種資料集就像字面上的意思一樣,訓練集是用來訓練模型,測試集是用來測...
前言 遺失值(Missing Value)資料的插補也是訓練模型前資料清洗重要的一環,在進行資料分析時資料常常是不完善的,因此需要有一些方法來處理資料遺失的狀況...
前言 線性迴歸(Linear Regression)是監督式學習中相對比較簡單且容易理解的方法,一種用來建立X(解釋變數/自變數/預測變數/獨立變項/特徵)與連...
前言 昨天介紹了簡單線性迴歸模型的基本架構,當資料只有一個解釋變數或特徵時(一個反應變數Y,多個解釋變數X的情境),這個方法相當方便且容易解釋,但是當資料存在較...
前言 在多元迴歸模型中,我們常常關心是否全部的解釋變數都可以幫助預測反應變數,或是只有部分的解釋變數有用?昨天的內容提到可以解決這類問題常見的方法有子集選取法(...
前言 資料利用線性迴歸建構模型之後,因為每筆資料特性的不同,可能會有許多問題出現,今天的內容將提到幾個在線性迴歸模型建模後常見的問題。 常見的問題 反應變數...
載入套件 import numpy as np import matplotlib.pyplot as plt import seaborn as sns fr...