本業主要是資料工程師,但會參雜一點數據分析跟視覺化的工作,覺得已經會了python但不會machine learning像是買了一把好劍但不會戰鬥一樣,所以打算善用30天的學習挑戰!內容會參雜一些工作上會用到的視覺化內容
因為我算是半路出家的數據分析師,因此工作中參雜了資料工程與數據分析,有點像是包辦了從找資料、清資料、存資料、取資料、整理資料、分析資料到視覺化資料、產出dash...
k-近鄰算法(k-nearest neighbors, KNN) 這個算法其實是利用距離去做分類日常生活常見的應用有各種推薦系統,在Amazon上搜尋了一本書,...
How to Lie With Statistics我們利用計算機來彰顯數據背後的含意。一般來說並不存在最好的算法或是可以給出最好結果的算法。 基本名詞:...
其實我沒打算要手刻一個k-nearest 所以這裡就來用用scikit-learn 你看看都幫我們寫好了~ 針對近鄰算法,scikit-learn有一個cla...
由於決策樹可以分為許多種類,以下講的是講分類樹。 決策樹的優點為不用懂複雜的理論與技術,就可以理解其運作原理。 另外一個優點是,決策樹可以針對數據所含的意義去...
一樣用scikit-learn來做做看(連結) # -*- coding: utf-8 -*- from sklearn import tree from sk...
單純貝氏分類其實是基於機率條件的基礎,與KNN計算點跟點之間的距離造成計算量大的缺點、決策樹計算每個feature的entropy或是gini係數不適用數據量較...
一樣我們用scikit-learn來做(連結) scikit-learn裡面有三種貝氏分類器的模型,今天介紹第一個高斯模型~高斯模型的意思是指,在feature...
今天來介紹scikit-learn的貝式分類器裡面的多項單純貝氏分類器Multinomial Naive Bayes(官方文件) 這個分類器適用於離散數據,雖然...
今天來介紹白努力多項單純貝式分類器跟昨天介紹的Multinomial Naive Bayes的差別是,白努力適合boolean feature,所以就是1/0的...