為什麼標題是羽化為資料科學初學者,而不是資料科學大師?
因為阿~怎麼可能有人能在30天就專精這個領域呢~
正題:
本篇將教你認識 numpy、pandas、pytorch、sklearn、seaborn 各套件
注重於如何實際操作
為你整理各套件的實用方法
最後實際帶領操作Kaggle Titanic 進入前5%
為什麼需要用到這兩個東西呢?因為我們在訓練資料時如果每次輸入的資料都是一整個一樣的資料,表示每次微分的結果都會一模一樣只是一直往同一個方向做梯度下降,這樣的訓練...
先import各種會用到的套件 使用sklearn的datasets套件建立要regression的資料集 pytorch做regression時,y資料的di...
先import各種會用到的套件 載入iris資料集此載入iris方式我是使用別人提供的方法此資料集包含六個欄位Id ,不會用到,只是標明這是第幾個資料Sepal...
前面23天講了這麼多,我們學會了numpy、pandas、seaborn、sklearn、pytorch我想我們應該有足夠的能力可以開始做Titanic資料集了...
延續昨天的介紹我們已經處理、介紹過的欄位有:PassengerId、Survived、Name、Pclass、Sex、Age SibSp欄位:此欄位表示兄弟姐妹...
前面兩天,我們對需要用的欄位做了特徵工程、缺失值的補充、值得轉換等我們已經將資料前處理做得差不多了,接著在做一些動作就可以拿下去train了 將DataFram...
SVM簡單說明為一種監督學習的方法,其原理是會根據資料的數據,劃出一條界線來區分各群我舉個例子說明:假如我們今天有一個任務,是要區分此生物是否為海洋生物我們把海...
KNN簡單說明為一種監督學習的方法,其原理就好像物以類聚一樣,相同的東西會聚在一起我們可以設定一個參數叫n_neighbors,假如我今天填入的數字是3它就會將...
Kmeans簡單說明為一種非監督學習的方法,其原理為:(1)依據你想分成幾個群,就先找出幾個資料點視為群組中心點(2)再將其他資料根據與其距離最近的群組中心點歸...
30天來的心得: 終於寫到第30天了,其實也不是真的30天啦~ 我大概花了14天左右就把全部的文章都打完了 每天都拼命的寫,前面的內容比較簡單,都只是在介紹各...