iT邦幫忙

2023 iThome 鐵人賽

DAY 8
0

訓練資料量不足Insufficient quantity of training data

資料量不足使模型訓練時能夠看到的特徵也很有限,導致訓練成效不佳。
目前的人工智慧還沒有什麼創造力,沒有推理、推論能力,若沒有大量資料,沒經過大量訓練,很難去準確預測新資料的特徵。
模型訓練的資料量越大,預測準確度越好。


不具代表性的資料Nonrepresentative training data

在機器學習中,訓練用的數據集中的資料不一定都是符合正確目標、特徵的資料,這些離群資料讓模型去了解預測目標的特點、結構,導致訓練的模型預測準確率下降
因此訓練用的數據集應該經過適當的處理,將離群的資料去除,或是做額外的處理,讓模型能夠順利訓練。
https://ithelp.ithome.com.tw/upload/images/20230923/20160630f9KKWXD5Ps.png
圖片來源: 連結

品質不好的資料(Poor-quality data):

指的就是低品質的數據,像是有錯誤、雜訊Noise(指資料中不規則,隨機的變化)、屬性有缺失等等。解決方法可以直接去除、將雜訊過濾、修復錯誤,或是填補缺失值等等。

無關的特徵(Irrelevant features):

在整個數據集中,會有許多與我們的預測目標無關的特徵,過多的無用特徵會對模型的訓練產生負面影響, 解決的方法有特徵選擇(Feature Selection)和特徵工程(Feature Engineering),比如說前面幾篇的文章中有提到的降維方法。


上一篇
Day7 機器學習: 批量學習和線上學習(Batch/Offline Learning and Online Learning)
下一篇
Day9 深度學習(Deep Learning)
系列文
AI語音模型訓練: machine learning 和 deep learning 的學習與應用30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言