今天來整理一下以前的筆記,聊聊比較分類模型的評判依據:confusion matrix. 下圖是常見的confusion matrix的圖: 用個例子來解釋上圖...
從上篇的confusion matrix可以延生出不同的比例,從比例我們也可以在延伸出不同的曲線來比較模型。 ROC curve 我們都知道logistic m...
有一陣子常常把KNN和K-means搞混,今天來聊聊兩者的區別~ KNN(k-nearest neighbors) KNN是supervised算法,主要解決分...
Overfitting是在執行任何模型的時候我們都要注意的問題,今天就來聊聊overfitting是什麼 Overfitting vs. underfittin...
在建立多個regression models後,我們常要選擇一個指標來衡量模型好壞,今天來聊聊各個不同的指標~ MSE(Mean Square Error) M...
今天剛好找到一個有趣的文字識別模型,想來和大家介紹一下~ PaddleOCR PaddleOCR是百度研究出來的文字識別模型,主要可以把圖片當成input然後判...
在面試的時候很常都會從基礎的問題開始問起,p值就像是你吃飽了嗎一樣每次都會出現,今天就來講解一下這個人人都說“小於0.05就拒絕”的p值到底是什麼 假設檢定 p...
當我們想要把資料丟進model前,常常會需要把資料標準化,尤其是針對跟距離有關的模型(像是knn, svm等),標準化大概分為standardize和norma...
cross validation是我們在建模時常常要使用的方法,主要的功能是避免overfitting的問題, 也是我們調參數後可以互相評估比較的手法,今天來聊...
很多模型只能夠處理數字,所以當我們有類別變數的時候需要先轉換成數字,而轉換的方法有兩種,針對類別變數我們有兩種方法可以處理: label encoding:...