打醬油剛(蹣跚)完成第二屆機器學習百日馬拉松,想藉此重點複習資料清理的部分,並爬取有興趣的數據來實際操作。
Just finished my 100 days challenge on machine learning basics and feel like I need to review and actually get hands on cleaning the data. This challenge will (hopefully) also contains some real world data scraping and cleaning.
Plotly是使用Python和Django框架構建的,前端使用JavaScript和可視化庫D3.js,HTML和CSS。使用Plotly可以創建出許多精美的...
Seaborn是基於Matplotlib的Python繪圖庫,並有繪圖指令簡單、圖樣風格精美等優點。Seaborn is a Python visualizat...
為什麼要把連續型變數離散化 What are the reasons of converting continuous variables into discr...
特徵工程是把原始資料對應到後續評估分數的轉換過程,是在擬合模型前重要的步驟。常見特徵有:數值型特徵、類別型特徵與時間序列特徵,之後會有文章分別介紹。一般而言,我...
在Day04的文章中介紹了幾種常見可供替補N/A或離群值的數值,本日文章來實際操做,以Kaggle競賽Titanic: Machine Learning fro...
在Day14的文章中我們討論到判讀資料的偏態,當資料中離群資料比例很高,或平均值沒有代表性時,便可考慮使用以下面幾種方式去除偏態: 對數去偏 - 使用自然對數...
除了Day03討論過的獨熱編碼與標籤編碼兩種基礎編碼方式,均值編碼也是另一種類別型特徵常用的編碼方式。一般處理類別型特徵預設採用標籤編碼,除非該特徵重要性高,且...
計數編碼 如果類別型特徵的目標值與類別筆數呈相關,可將筆數本身當作特徵,例如:自然語言處理中,字詞的計數編碼稱為詞頻,是自然語言處理中很重要的特徵。 Count...
時間型特徵最常見的處理方式 - 將特徵分解為年-月-日-時-分-秒 The most commonly used way: spliting time seri...
今天從Inside Airbnb下載的資料(calendar.csv),針對德國柏林地區的Airbnb房源繁忙程度作分析。 The data (calendar...