iT邦幫忙

鐵人檔案

2019 iT 邦幫忙鐵人賽
回列表
AI & Data

特徵工程 in 30 days 系列

常在傳統機器學習的領域聽到"Garbage in, garbage out."這句話,意思是如果以資訊含量極低的特徵來訓練模型,則模型的輸出必然也是沒有價值的。要達到打造精準的機器學習預測模型,必然先對特徵工程下一番功夫。我將在這30天內複習入門觀念到深入特徵工程的主題 ,並且透過Kaggle的過往線上競賽所提供之資料集來做學習成果的驗證。

參賽天數 22 天 | 共 23 篇文章 | 49 人訂閱 訂閱系列文 RSS系列文
DAY 1

前言

在人工智慧浪潮爆發的現在,迎來了許多開源的機器學習框架,許多時候會有人認為資料一股腦地丟進了某個知名模型當中就可以不費吹灰之力的得到一個能精準預測的模型。 在我...

2018-10-04 ‧ 由 renton_hsu 分享
DAY 2

為什麼特徵工程很重要

數據科學家和機器學習工程師經常收集數據以解決問題。因為他們試圖解決的問題通常是高度相關的並且存在並且在這個混亂的世界中自然發生,用於表示問題的數據也可能非常混...

2018-10-05 ‧ 由 renton_hsu 分享
DAY 3

[瞭解資料特徵]Part1-結構化與非結構化資料

在一頭栽入特徵工程之前,了解資料的特性是第一步。透過了解資料的特性才能幫助我們在進行特徵工程時,充分發揮不同的資料的原生特點,因為資料類型決定了用於分析和提取結...

2018-10-06 ‧ 由 renton_hsu 分享
DAY 4

[瞭解資料特徵]Part2-定量與定性資料A

在處理結構化的表格資料時,我們通常會問自己的第一個問題是資料欄位內的類型是定量或是定性。基於兩者不同,看待資料值的角度會有所不同。 定性以及定量 定性資料...

2018-10-07 ‧ 由 renton_hsu 分享
DAY 4

[瞭解資料特徵]Part2-定量與定性資料B

以Titanic dataset為例判斷定量與定性資料 什麼是Titanic dataset? Titanic dataset是資料科學競賽平台Kaggle上的...

2018-10-07 ‧ 由 renton_hsu 分享
DAY 5

[瞭解資料特徵]Part3-資料的四個尺度-A

資料的尺度 我們已經知道何謂定量與定性資料,但有時候資料的類型模稜兩可,因此有統計學和定量研究中的測量尺度(scale of measure)或稱度量水平(le...

2018-10-08 ‧ 由 renton_hsu 分享
DAY 6

[瞭解資料特徵]Part3-資料的四個尺度-B

titanic四尺度資料辨別 本文將探討titanic資料中各欄位的資料尺度,並且校正不恰當的資料類型。 #匯入maplotlib做視覺化 import mat...

2018-10-09 ‧ 由 renton_hsu 分享
DAY 7

[瞭解資料特徵]Part3-資料的四個尺度-C

各資料尺度允許的數學操作及視覺化方式 此文將會一一審視各種資料尺度允許的數學操作以及視覺化方式。每個資料尺度範例以單個欄位做示範,但不限於此單欄位,可應用在其他...

2018-10-10 ‧ 由 renton_hsu 分享
DAY 8

[改善資料品質]Part-1 EDA

在[瞭解資料特徵]系列,我們充分理解分析類型資料的框架,以便我們在遇到不同的資料類型時能知道其賦予我們什麼限度來進行探索。在此單元中,將會更進一步的以現有的知識...

2018-10-11 ‧ 由 renton_hsu 分享
DAY 9

[改善資料品質]Part-2 面對缺漏值的對策

本篇發文是[改善資料品質]中的第二篇,面對缺漏值的對策。 Why it matters? 處理資料時,資料科學家遇到的最常見問題之一是資料丟失問題。最常發生的情...

2018-10-12 ‧ 由 renton_hsu 分享