介紹在開始介紹XGBoost之前,我們先來了解一下什麼事Boosting? 所謂的Boosting 就是一種將許多弱學習器(weak learner)集合起...
為方便讀者使用以及回顧舊文章當中的程式碼有需要的讀者可以至https://colab.research.google.com/drive/1kH--E0gj1e...
這幾天提到的概念:Feature Crosses、Feature不能太多等等,聽起來是一回事,但做起來又是另外一回事。本篇會稍微玩一下遊戲區,看看這些概念到底在...
import numpy as np from math import exp,pow 首先Import東西進來! class preceptron():...
今天來嘗試另外一個LSTM經典案例 - 股票預測,股票也是時間序列型資料!過去,金融業希望能找出一個強而有力的模型,不管預測股票或者期貨等等標的。但,似乎目前都...
介紹降維顧名思義為把高維度降到低維度,也可以把它想成是壓縮數據。降維是機器學習中的一個重要課題,有時候數據太大會造成運算時間過久,佔用內存,所以把數據做降維後...
雖然kaggle平台上的比賽難度以及競爭者的實力都較強,但是kaggle提供late submission讓沒參與到競賽的人也可以練習自己的訓練成果,並且最重要...
為解決無法用「線性函數」做區別的資料,除了前一篇所言,還可以使用「Crossing One-Hot Vectors」。(也許可以說「一個熱鍵」?) 文章:cr...
簡單回顧關於兩者更詳細的介紹可以參考ML_Day18(K-Means)及ML_Day19(KNN(懶惰學習)),這邊做一下整理,歸納出兩者的差異性,不然光看兩...
今天我們來討論LSTM的應用,而其中一個最經典的案例就是情感分析(Sentiment Analysis)。而什麼是情感分析呢? 透過NLP或者Deep lear...
知道許多機器學習的知識之後,想必各位一定會想要有些實戰的經驗,在這裡我推薦兩個我自己常使用的競賽平台,有興趣參加競賽的讀者可以到這些平台參加競賽累積經驗。 T-...
在前面的文章已經有介紹過Preceptron了,這是最簡單的神經網路,雖然課程裡面沒有要直接把Model實做出來的部分但是為了讓文章結尾精彩一點我們要來實作Pr...
用Feature Crosses讓我們的樣本放入十字表格中,讓模型更容易出來。 教學文章:Feature Crosses 根據網路的文章(特徵組合&特...
為什麼說KNN是懶惰學習的分類算法?。之所以稱“懶惰”並不是由於此類算法看起來很簡單,而是在訓練模型過程中這類算法並不去學習一個判別式函數(損失函數)而是要記住...
我們從Precentron了解了神經元,進而從神經元組成神經網路,介紹了誤差函數(LossFunction),再講解了誤差函數如何透過GradientDecen...
今天我們來討論深度學習中,專門在Run時間序列型資料的網路模型 - Recurrent Neural Network (RNN),在之前所討論到DNN跟CNN模...
上一篇在交叉驗證的過程中,提到超參數的計算是使用窮舉法,因此要設定好參數的區間,來在訓練的過程中對參數進行測試。而在這次使用中我參考了本篇文章:LightGBM...
先前說了資料集的處理及分配,但是到底資料要如何提供呢?怎樣的資料才是好的呢? 資料處理是機器學習重要的一環,資料找出特徵,讓資料得以表現出他的價值,也就是可以給...
梯度下降是一種演算法專門讓Model進行學習,也就是更新內部參數的演算法,要調整Model裡的參數,首先我們必須要找到Model應該要往哪個方向調整,再來就是我...
當今天層數越疊越深,若不做任何的處理機制,準確度其實是會越來越糟糕!因為當疊層數疊超過一個層數,會發生像Gradient vanishing或者說Degrada...
什麼是非監督式學習之前我們所介紹的幾種分類方法都監督式學習,而非監督式學習演算法只基於 輸入資料找出模式,無法正確找出結果。K-Means就是透過這個概念將資料...
在上一章節我們提到,實作模型的過程需要在變異與偏誤之間權衡,本章我們就延續之前使用的糖尿病資料集,搭配sklearn提供的函式來進行簡單的交叉驗證吧! 驗證集的...
有了訓練、測試等資料集,要驗證模組是否正確,也就需要驗證集(validation data) 〈圖一、訓練與測試集〉 我們把資料分成兩個部分,一個是訓練集,一...
介紹Random Forest的基本原理是,結合多顆CART樹(CART樹為使用GINI算法的決策樹),並加入隨機分配的訓練資料,以大幅增進最終的運算結果。顧...
今天我們來使用TF 2.0來實作VGG 16,那為什麼選擇VGG 16呢?雖然VGG 16並未拿下當年ILSVRC 的分類比賽的冠軍 (當年由Google所發明...
介紹完神經網路,現在我們要來談Loss Function啦!在神經網路裡,我們有輸入,並會得到神經網路的預測,不過我們要如何告訴神經網路,它哪裡做錯了?應該要改...
我們都知道機器學習最常見的指標就是準確程度,不論是迴歸類型的模型還是分類的模型,都有衡量準確度的方法,但是在一般的場合裡,我們是不會有正確的答案可以提供驗證的,...
本篇也是進行說明,是關於訓練資料與測試資料相關資訊。 上篇說明模型「泛化」,當我們做出模型的時候,要進行調整與測試,讓我們的預測越接近現況。而在這邊要規劃我們...
今天我們來討論Deep learning經典的模型之一 - Convolutional Neural Network (CNN)的架構。目前CNN被大量使用的影...
介紹之前我們在做二元分類的時候有介紹幾種模型,perceptron,linear classification。這邊我們要介紹另一種更好懂得模型,決策樹(De...