人對於自己在意的東西都會有所偏頗,可能在給予資料的時候就在不知不覺中進行篩選。要如何維持中立,不偏頗呢?這就是本篇所要探討的重點。 文章:Fairness 在...
新增特徵 本篇文章將特徵之間的關係做一個簡單的連結並產生新的特徵,產生新特徵這個動作在連結不同要素的影響時是很重要的,例如同時購買a與b一個特徵,以及買a、買b...
今天來實作昨天討論的AutoEncoder,簡單複習一下,AutoEndoer的架構其實就如同下圖source Input 資料後,會放到Neural Netw...
特徵調整 在這裡要使用一個較特殊的運算叫做boxcox,boxcox1p則是加上1之後才做boxcox避免過程中出現錯誤,boxcox的公式如下。 做完這個轉換...
在程式開發中,對於程式的品質非常重要,我們有各個種測試方式測試,最常用的就是單元測試(Unit test)。但是機器學習沒有這樣的機制,只能用直接輸入數據,直接...
今天開始,我們來聊聊非監督式的學習。前面所提的演算法,大部分都是監督式學習,也就是通常都是Label好的資訊 (Ex: 透過已經蒐集到的股價資訊或者已經Labe...
延續上一次的補值,在特殊的行當中,我們可以從行本身的意義判斷出應該補的值,例如當車庫的屬性為空值,可能原因就是該棟房子並沒有車庫,因此這些相關的面積等等資訊都可...
在上次的處理中尚未除去明顯的極端值,因此這次我們針對面積超過一定程度的資料進行刪除。 train = train[train.GrLivArea < 45...
今天討論的主題主要是Google這篇曾經在2016年release 在Google Play的app上所做的推薦系統,而他有被open source 在 Ten...
本篇要學習靜態和動態推理,這是在機器學習中所要選擇的兩種不同推理。 文章:Static vs. Dynamic Inference 在設計機器學習中,有一環要...
文章:Static vs. Dynamic Training 進行模型訓練方式依據資料是否會變動,將分成兩種方式:靜態(static)和動態(dynamic)...
今天我們來討論推薦系統,現在大家的生活環境充滿了推薦系統的應用,不管是在Youtube聽音樂或者是在商城購物,都充斥著推薦系統的應用。什麼是推薦系統?推薦系統就...
匯入與觀察資料 from google.colab import drive drive.mount('/content/gdrive') train = pd...
簡單回顧之前在介紹 Gradient Descent 及 ML入門(十五)Regularization(Solving overfitting)都有提到,在做...
本篇會講一些Google提供的機器學習之環境到底是怎樣,如何協助我們。文章:Production ML Systems 這是課程中描繪的圖片: 明顯的看得出來...
Multi-label Text Classification using BERT – The Mighty Transformer 今天要來芝麻街上英文課囉...
為方便讀者使用以及回顧舊文章當中的程式碼有需要的讀者可以至https://colab.research.google.com/drive/1kH--E0gj1e...
介紹在開始介紹XGBoost之前,我們先來了解一下什麼事Boosting? 所謂的Boosting 就是一種將許多弱學習器(weak learner)集合起...
今天來嘗試另外一個LSTM經典案例 - 股票預測,股票也是時間序列型資料!過去,金融業希望能找出一個強而有力的模型,不管預測股票或者期貨等等標的。但,似乎目前都...
import numpy as np from math import exp,pow 首先Import東西進來! class preceptron():...
介紹降維顧名思義為把高維度降到低維度,也可以把它想成是壓縮數據。降維是機器學習中的一個重要課題,有時候數據太大會造成運算時間過久,佔用內存,所以把數據做降維後...
雖然kaggle平台上的比賽難度以及競爭者的實力都較強,但是kaggle提供late submission讓沒參與到競賽的人也可以練習自己的訓練成果,並且最重要...
簡單回顧關於兩者更詳細的介紹可以參考ML_Day18(K-Means)及ML_Day19(KNN(懶惰學習)),這邊做一下整理,歸納出兩者的差異性,不然光看兩...
這幾天提到的概念:Feature Crosses、Feature不能太多等等,聽起來是一回事,但做起來又是另外一回事。本篇會稍微玩一下遊戲區,看看這些概念到底在...
今天我們來討論LSTM的應用,而其中一個最經典的案例就是情感分析(Sentiment Analysis)。而什麼是情感分析呢? 透過NLP或者Deep lear...
在前面的文章已經有介紹過Preceptron了,這是最簡單的神經網路,雖然課程裡面沒有要直接把Model實做出來的部分但是為了讓文章結尾精彩一點我們要來實作Pr...
為解決無法用「線性函數」做區別的資料,除了前一篇所言,還可以使用「Crossing One-Hot Vectors」。(也許可以說「一個熱鍵」?) 文章:cr...
用Feature Crosses讓我們的樣本放入十字表格中,讓模型更容易出來。 教學文章:Feature Crosses 根據網路的文章(特徵組合&特...
為什麼說KNN是懶惰學習的分類算法?。之所以稱“懶惰”並不是由於此類算法看起來很簡單,而是在訓練模型過程中這類算法並不去學習一個判別式函數(損失函數)而是要記住...
我們從Precentron了解了神經元,進而從神經元組成神經網路,介紹了誤差函數(LossFunction),再講解了誤差函數如何透過GradientDecen...