iT邦幫忙

第 11 屆 iT 邦幫忙鐵人賽

DAY 15
0

先前說了資料集的處理及分配,但是到底資料要如何提供呢?怎樣的資料才是好的呢?

資料處理是機器學習重要的一環,資料找出特徵,讓資料得以表現出他的價值,也就是可以給我們使用的意義。
據教學說,從業人員大概花了75%的時間在整理這些資料呢!


在所有原始數據(raw data)都是不好看,亂七八糟的,所以我們要重新整理,讓這些資料可以給機器學習使用。畢竟他們不懂什麼是真正要使用的數據,在機器學習中,他們也只有自行取得資料分析,萬一給的格式換七八糟,他們也無法正確的學習,產生模型。

因此我們需要在數據中首先確保資料不是太偏頗,例如我們要算每戶家庭的房間數預測,就不需要把一戶人家有50個房間這種極端數值也算進去,極端數值要排出,不然我們抓資料出來的時候會認為那是正常現象。所以有歸納出幾個優良資料的建議:

  • Avoid rarely used discrete feature values:意思說,要避免使用很離散的資料,也就是我們上段寫到的「避免使用極值」。良好的情況,應該是要發生五次以上,才算符合標準。
  • Prefer clear and obvious meanings:每個功能都應具有清晰明顯的含義
  • Don't mix "magic" values with actual data:這要避免接口不穩定而製作的。
  • Account for upstream instability:解決上游的負擔。有時候需要支援,這時候苦命勞工就來了XD

接著是要處理數據,像是數據的字串格式,要改成浮點數之類的,就是整理資料的形態與內容。像是在raw data裡面有地址,但是地址的填寫方式都有寫不同,可能有的是全型應數字或是中文等等其他語言,這樣在分析或是計算的時候難以處理。所以要把資料格式統一。但是統一後,也要讓學習的模行容易讀取,也要把它做成轉換成數值,例如「60.6」、「5」都是文字,我們可以把他們轉乘數字代碼來運用,接著他們就可以拿這些數據計算了,也有量化的欄位或是數字,可以讓訓練更加快速。


上一篇
【Day14】2rd:驗證集
下一篇
【Day16】2rd:特徵十字(Feature Crosses)
系列文
Machine Learning(by Google)30

尚未有邦友留言

立即登入留言