【Day15】2rd：表現（Representation）

第 11 屆 iThome 鐵人賽

DAY 15

Google Developers Machine Learning

Machine Learning（by Google）系列第 15 篇

11th鐵人賽 machine learning machinelearning google

eyelash*睫毛

2019-09-30 23:54:24

2018 瀏覽

分享至

先前說了資料集的處理及分配，但是到底資料要如何提供呢？怎樣的資料才是好的呢？

資料處理是機器學習重要的一環，資料找出特徵，讓資料得以表現出他的價值，也就是可以給我們使用的意義。
據教學說，從業人員大概花了75%的時間在整理這些資料呢！

在所有原始數據(raw data)都是不好看，亂七八糟的，所以我們要重新整理，讓這些資料可以給機器學習使用。畢竟他們不懂什麼是真正要使用的數據，在機器學習中，他們也只有自行取得資料分析，萬一給的格式換七八糟，他們也無法正確的學習，產生模型。

因此我們需要在數據中首先確保資料不是太偏頗，例如我們要算每戶家庭的房間數預測，就不需要把一戶人家有50個房間這種極端數值也算進去，極端數值要排出，不然我們抓資料出來的時候會認為那是正常現象。所以有歸納出幾個優良資料的建議：

Avoid rarely used discrete feature values：意思說，要避免使用很離散的資料，也就是我們上段寫到的「避免使用極值」。良好的情況，應該是要發生五次以上，才算符合標準。
Prefer clear and obvious meanings：每個功能都應具有清晰明顯的含義
Don't mix "magic" values with actual data：這要避免接口不穩定而製作的。
Account for upstream instability：解決上游的負擔。有時候需要支援，這時候苦命勞工就來了XD

接著是要處理數據，像是數據的字串格式，要改成浮點數之類的，就是整理資料的形態與內容。像是在raw data裡面有地址，但是地址的填寫方式都有寫不同，可能有的是全型應數字或是中文等等其他語言，這樣在分析或是計算的時候難以處理。所以要把資料格式統一。但是統一後，也要讓學習的模行容易讀取，也要把它做成轉換成數值，例如「60.6」、「5」都是文字，我們可以把他們轉乘數字代碼來運用，接著他們就可以拿這些數據計算了，也有量化的欄位或是數字，可以讓訓練更加快速。