iT邦幫忙

第 12 屆 iThome 鐵人賽

1
自我挑戰組

AI 高中生的自我學習系列 第 6

Day 6 - 目前(傳統)的機器學習三步驟(1)-收集數據

  • 分享至 

  • xImage
  •  

如前所言,假設 y是結果(如股票價格) , x是變數(如進料成本,薪資成本......等) , 以機器學習方法找出y與x的關係, y=f(x), 如此可預測未來。

根據機器學習的目的,如何準確地預測或辨識,可分為以下三步驟

第一步 Data 收集數據:Clean / Prepare / Manipulate Data
第二步 Features 找出關鍵特徵
第二步 Training 訓練並驗證,找出最佳結果

例如

  • 在現有手中的資料Data中,找X / Y對應

    • 特徵 (Feature):⽤來描述每⼀筆資料,通常會⽤ X 來表⽰ 。
    • 標記 (label):⽤來表⽰每⼀筆資料所對應的輸出,這個輸出樣式可以有不同的狀態(可能是類別或者實數值等),通常會⽤ Y。
    • 機器學習(Training)就是利⽤歷史資料(Data)找出⼀個函數 。
      f : X →Y
  • 若應⽤於辨識動物, 我們期待
    輸入X: https://ithelp.ithome.com.tw/upload/images/20201205/20130601mvmeCvb7y8.png 就會知道輸出(辨識)時 f(X) = 貓的圖片(Y)

  • 若應⽤於語⾳辨識, 我們期待
    輸入X: https://ithelp.ithome.com.tw/upload/images/20201205/201306015AkD1kIcLU.png 就會知道輸出(辨識)時f(X) = ⼤家好 (Y)

  • 可應⽤於預測明天天氣如何
    https://ithelp.ithome.com.tw/upload/images/20201205/2013060138EotBjg4s.png

  • 可應⽤於辨識交通工具
    https://ithelp.ithome.com.tw/upload/images/20201205/20130601SvCzWUiCfJ.png

  • 可應⽤於辨識spam mail
    https://ithelp.ithome.com.tw/upload/images/20201205/20130601fPtxVsJ6VY.png

第一步 Data 收集數據

收集數據是一件不容易卻是關鍵的第一件事情,很不幸的,收集數據是一件很浪費時間的事情,有時候收集數據也是一件反反覆覆的事情,收集不好可能需要再從來,因為

  • 資料總是被糟蹋
  • 資料一定不乾淨
  • 資料永遠不完整
  • 資料必然不前瞻

所以收集數據的"人"或稱"專家"(domain know-how)很重要,必須對目的很了解,知道哪邊可以收集數據,能夠整理成乾淨的數據,給下一步順利地進行,否則容易失敗,預測錯誤,甚至有時候必須要再回來收集數據,重頭再來一次。

註:本文是搜尋數個網站及各種不同來源之結果,著重在學習,有些內容已難辦別出處,我會儘可能列入出處,若有疏忽或出處不可考,請聯絡我, 我會列入, 尚請見諒。

上一篇
Day 5 - 類神經網路可做什麼
下一篇
Day 7 - 目前(傳統)的機器學習三步驟(2)-關鍵特徵
系列文
AI 高中生的自我學習30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言